本文是LLM系列文章,针对《Large Language Models As Faithful Explainers》的翻译。
摘要
大型语言模型(LLM)最近通过利用其丰富的内部知识和推理能力,熟练地处理复杂的任务。因此,这种复杂性阻碍了传统的以输入为中心的解释算法来解释LLM的复杂决策过程。因此,通过自然语言格式的单一前馈推理来自我解释其预测的最新进展已经出现。然而,自然语言解释往往因缺乏忠实性而受到批评,因为这些解释可能无法准确反映LLM的决策行为。在这项工作中,我们引入了一个生成解释框架xLLM,以提高LLM的自然语言格式解释的可信度。具体来说,我们提出了一个评估者来量化自然语言解释的忠实度,并通过xLLM的迭代优化过程来提高忠实度,目的是最大化忠实度得分。在三个NLU数据集上进行的实验表明,xLLM可以显著提高生成解释的可信度,这与LLM的行为一致。
1 引言
2 前言
3 xLLM:解释者LLM框架
4 实验
5 结论
在本文中,我们提出了一个生成解释框架xLLM,以产生准确捕捉LLM预测行为的忠实解释。我们的框架采用了保真度