一些大佬的可解释人工智能的优质资料整理及总结（更新中）-CSDN博客

本文探讨了Transformer系列模型，特别是VIT模型的可解释性，涉及人机交互式解释方法，并对深度学习的可解释性进行了入门概述，强调了可解释性在AI中的重要性，如准确性、相关性和实际应用需求。同时提到了图宾根大学的机器学习可解释性研究课程资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

针对Transformer系列模型的模型可解释性分析：

1.关于Transformer可解释性的介绍： Transformer模型的可解释性

内容总结：

2. 关于VIT模型的可解释性研究介绍： Vision Transformer的可解释性

内容总结：

内容总结：

4.关于可解释深度学习入门综述：

内容总结：

1.可解释机器学习算法的分类：Intrinsic / post-hoc, Global / local explainability, Attributing to training sample / test sample;

2. 什么是可解释性：通过观察intrinsically explainable model的特点，如线性模型：线性模型的解释，各个自变量就是生成因变量的依据，自变量的系数就是各个自变量影响力的大小；决策树：模型一看就懂，先根据跟节点做判断，最后再根据叶节点做判断。其它建议看链接的原文。

3. 为什么人工智能模型需要可解释性：一个相对容易理解的系统更容易被控制；可解释性作为一个工具，可以给很多应用提供帮助（例如在医疗和法律领域提高信任度；在Fairness和Robustness这2个领域中帮助选择正确的特征。）；可解释性是客户的权力（一些地区的法律规定）。

4. 什么是好的可解释模型（可解释模型的评价）：

（1）Soundness（准确性、正确性）：确定事件的真实原因，大部分可解释性算法满足的都是这个，比如常见的saliency map；

（2）Relevance（相关性）：与最终目标保持一致，需要根据解释目标进行可解释优化，实际应用中，这个因素考虑得更多。因为这类特点将客户的需求考虑进来了，所以就不能只给客户一个类似上面的图。比如有时候需要给一个具体的文字解释，有时候需提升客户使用你AI产品的信心等等；

（3）其它的评价指标。如，简单（尽可能使用更少的特征）、通用（可解释性算法能适用于更多的应用场景）等等

4. 国外图宾根大学的可解释性研究课程：机器学习可解释性研究

内容总结： 包含了机器学习模型泛化性，不确定性，可解释性研究的课件内容，适合后期拓宽研究视野查看。里面推荐了很多相关的论文，其中关于可解释性的论文我已经全部下载完成。