本文是LLM系列文章,针对《ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for
Tool Augmented Large Language Models》的翻译。
摘要
工具增强的大型语言模型(LLM)正在迅速集成到现实世界的应用程序中。由于缺乏基准,社区仍然需要充分了解这些模型中的幻觉问题。为了应对这一挑战,我们引入了一个全面的诊断基准ToolBH。具体来说,我们通过两个角度评估LLM的幻觉:深度和广度。在深度方面,我们提出了一个多层次的诊断过程,包括(1)可解性检测、(2)解决方案规划和(3)缺失工具分析。对于广度,我们根据工具集的特征考虑三种场景:缺少必要的工具、潜在的工具和功能有限的工具。此外,我们开发了七个任务,并通过多轮手动注释收集了700个评估样本。结果显示了ToolBH基准测试带来的重大挑战。目前的先进模型Gemini-1.5-Pro和GPT-4o在100分的总分中分别仅为45.3分和37.0分。在这个基准测试中,较大的模型参数不能保证更好的性能;训练数据和响应策略在工具增强的LLM场景中也发挥着至关重要的作用。我们的诊断分析表明,模型错误的主要原因在于评估任务的可解性。此外,开放权重模型在冗长的回复中性能下降,而专有模型在较长的