
LLM hallucination
文章平均质量分 63
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Dynamic Attention-Guided Context Decoding for Mitigating Context Faithfulness Hallucinations
大型语言模型(LLM)经常出现上下文忠实幻觉,由于上下文利用不足和输出不确定性高,输出与检索到的信息存在偏差。我们的不确定性评估实验表明,高不确定性和幻觉之间存在很强的相关性。我们假设注意机制编码了指示上下文利用的信号,并通过探测分析进行了验证。基于这些见解,我们提出了动态注意力引导上下文解码(DAGCD),这是一个轻量级的框架,在单次解码过程中集成了注意力分布和不确定性信号。QA数据集的实验证明了DAGCD的有效性,在保持计算效率的同时,在忠实性和鲁棒性方面实现了显著提高。原创 2025-02-15 18:03:38 · 109 阅读 · 0 评论 -
CAN KNOWLEDGE EDITING REALLY CORRECT HALLUCINATIONS?
大型语言模型(LLM)会出现幻觉,指代生成内容中的非真实信息,尽管它们在任务中具有优越的能力。与此同时,知识编辑已经发展成为一种新的流行范式,可以纠正LLM中编码的错误事实知识,从而避免从头开始重新训练。然而,用于知识编辑的现有评估数据集的一个常见问题是,它们不能确保LLM在编辑之前确实生成了对评估问题的幻觉答案。当LLM在经过不同技术编辑后在这些数据集上进行评估时,很难直接采用性能来评估不同知识编辑方法在纠正幻觉方面的有效性。因此,根本问题仍然没有得到充分验证:知识编辑真的能纠正LLM中的幻觉吗?原创 2024-11-06 11:08:46 · 472 阅读 · 0 评论 -
Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling
大型语言模型 (LLM) 具有强大的零样本主题提取功能,为概率主题建模和封闭集主题分类方法提供了一种替代方案。作为零样本主题提取器,LLM 应该理解人类指令,以根据给定的文档生成相关且非幻觉的主题。然而,基于 LLM 的主题建模方法在生成符合人工指令中规定的粒度的主题时经常面临困难,这通常会导致许多几乎重复的主题。此外,尚未研究解决 LLM 产生的幻觉主题的方法。在本文中,我们专注于解决主题粒度和幻觉问题,以实现更好的基于 LLM 的主题建模。原创 2024-11-03 10:11:43 · 65 阅读 · 0 评论 -
Improving Factuality in Large Language Models via Decoding-Time Hallucinatory
尽管其能力非凡,大型语言模型(LLM)很容易生成与可验证事实相矛盾的响应,即不忠实的幻觉内容。现有的工作通常集中在优化模型参数或编辑语义表示,这会损害目标LLM的内部事实知识。此外,幻觉通常在下游任务中表现出多方面的模式,限制了模型跨任务的整体性能。在本文中,我们提出了一种比较器驱动的解码时间(CDT)框架来减轻响应幻觉。首先,我们利用多任务微调样本构建幻觉和真实的比较器。在这种情况下,我们提出了一种指令原型引导的专家混合策略,以增强相应比较器在不同任务指令中捕获不同幻觉或真实模式的能力。原创 2024-09-24 09:34:18 · 87 阅读 · 0 评论 -
ANAH: Analytical Annotation of Hallucinations in Large Language Models
减少大型语言模型 (LLM) 的“幻觉”问题对于其广泛应用至关重要。对幻觉进行全面而精细的测量是治理这个问题的第一步,但在社区中尚未得到充分探索。因此,我们提出了 ANAH,这是一个双语数据集,可在生成问答中提供 LLM 中幻觉的分析注释。我们数据集中的每个答案句子都经过严格的注释,涉及参考片段的检索、幻觉类型的判断以及幻觉内容的校正。ANAH 由 ∼4.3k LLM 响应的 ∼12k 句子级注释组成,涵盖 700 多个主题,由人机回环管道构建。原创 2024-09-17 11:12:36 · 245 阅读 · 0 评论 -
Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models
大型语言模型 (LLM) 在各种机器学习 (ML) 任务中展示了卓越的功能。鉴于为监督学习创建带注释的数据集的成本很高,LLM 通过实现有效的小样本上下文学习提供了一种有价值的替代方案。然而,这些模型会产生幻觉,尤其是在知识不完整的领域。此外,当前使用 LLM 进行知识蒸馏的方法通常难以提高教师和学生模型的有效性。为了应对这些挑战,我们引入了 DualChecker,这是一个创新框架,旨在减轻幻觉并提高教师和学生模型在知识蒸馏过程中的表现。原创 2024-09-13 16:53:37 · 193 阅读 · 0 评论 -
The Hallucinations Leaderboard – An Open Effort to Measure Hallucinations in Large Language Models
大型语言模型 (LLM) 凭借其理解和生成类人文本的非凡能力,改变了自然语言处理 (NLP) 的格局。然而,这些模型容易出现 “幻觉”——与事实现实或输入上下文不一致的输出。本文介绍了幻觉排行榜,这是一项开放的计划,用于定量测量和比较每个模型产生幻觉的趋势。排行榜使用一套全面的基准,重点关注幻觉的不同方面,例如事实和忠实度,涵盖各种任务,包括问答、总结和阅读理解。我们的分析提供了对不同模型性能的见解,指导研究人员和从业者为其应用程序选择最可靠的模型。原创 2024-09-05 09:51:00 · 56 阅读 · 0 评论 -
INSIDE: LLMS’ INTERNAL STATES RETAIN THE POWER OF HALLUCINATION DETECTION
知识幻觉引起了人们对部署的LLM的安全性和可靠性的广泛关注。之前在检测幻觉方面的努力已被用于logit级不确定性估计或语言级自一致性评估,在这些评估中,语义信息在标记解码过程中不可避免地会丢失。因此,我们建议探索LLM内部状态中保留的密集语义信息,以进行特征检测(INSIDE)。特别是,提出了一种简单而有效的特征分数度量来更好地评估响应的自一致性,该度量利用响应协方差矩阵的特征值来衡量密集嵌入空间中的语义一致性/多样性。原创 2024-09-03 14:47:29 · 309 阅读 · 0 评论 -
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics
尽管近年来大型语言模型(LLM)取得了巨大进步,但其实际部署面临的一个特别紧迫的挑战是“幻觉”现象,即模型捏造事实并产生非事实陈述。作为回应,我们提出了PoLLMgraph——LLM的测谎仪——作为一种有效的基于模型的白盒检测和预测方法。PoLLMgraph明显不同于现有的大量研究,后者专注于通过黑箱评估来应对这些挑战。特别是,我们证明,通过可处理的概率模型分析LLM在生成过程中的内部状态转换动力学,可以有效地检测幻觉。原创 2024-09-01 11:48:46 · 241 阅读 · 0 评论 -
A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models
工具增强的大型语言模型(LLM)正在迅速集成到现实世界的应用程序中。由于缺乏基准,社区仍然需要充分了解这些模型中的幻觉问题。为了应对这一挑战,我们引入了一个全面的诊断基准ToolBH。具体来说,我们通过两个角度评估LLM的幻觉:深度和广度。在深度方面,我们提出了一个多层次的诊断过程,包括(1)可解性检测、(2)解决方案规划和(3)缺失工具分析。对于广度,我们根据工具集的特征考虑三种场景:缺少必要的工具、潜在的工具和功能有限的工具。此外,我们开发了七个任务,并通过多轮手动注释收集了700个评估样本。原创 2024-07-02 20:31:36 · 94 阅读 · 0 评论 -
On Large Language Models’ Hallucination with Regard to Known Facts
大型语言模型可以成功地回答事实问题,但也容易产生幻觉。我们从推理动力学的角度研究了LLM拥有正确答案知识但仍产生幻觉的现象,这是以前幻觉研究中没有涉及的领域。我们能够通过两个关键思想进行分析。首先,我们确定了质疑相同三重知识但导致不同答案的事实问题。因此,正确和不正确输出的模型行为之间的差异表明了幻觉发生时的模式。其次,为了测量模式,我们利用从残差流到词汇空间的映射。我们揭示了在正确和幻觉的情况下,输出token概率沿着层的深度的不同动态。原创 2024-06-21 17:17:18 · 114 阅读 · 0 评论 -
DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models
由于近年来大型语言模型(LLM)取得了显著的成功,幻觉问题仍然是一个挑战,因此提出了许多检测幻觉的基准。尽管如此,其中一些基准并不是LLM自然生成的,而是有意诱导的。此外,许多人只关注真实性幻觉,而忽视了忠实性幻觉。此外,尽管对话模式在LLM时代得到了更广泛的应用,但目前的基准只集中在句子层面和段落层面的幻觉。在这项研究中,我们提出了DiaHalu,这是我们所知的第一个对话级幻觉评估基准。最初,我们将收集的主题集成到系统提示中,并促进两个ChatGPT3.5之间的对话。原创 2024-06-03 14:03:08 · 150 阅读 · 0 评论 -
Mitigating the Hallucinations of Large Language Models Being Misled by Untruthful Contexts
尽管大型语言模型(LLM)已经展示了令人印象深刻的文本生成能力,但它们很容易被用户或知识增强工具提供的不真实上下文误导,从而产生幻觉。为了避免LLM被不真实的信息误导,并利用知识增强,我们提出了一种轻量级的方法——TruthAware上下文选择(TACS),以保护不真实的上下文不受输入的影响。TACS从对输入上下文执行真实性检测开始,利用LLM中的参数化知识。随后,它基于每个位置的真实性构建相应的注意力掩码,选择真实的上下文并丢弃不真实的上下文。原创 2024-05-25 22:37:40 · 327 阅读 · 0 评论 -
Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models
大型语言模型中的幻觉是指大型语言模型产生连贯但事实上不准确的反应的现象。这一问题破坏了LLM在实际应用中的有效性,因此需要研究检测和减轻LLM的幻觉。先前的研究主要集中在幻觉检测的后处理技术上,由于与LLM的推理过程分离,这些技术往往计算密集,有效性有限。为了克服这些限制,我们引入了MIND,这是一种无监督的训练框架,它利用LLM的内部状态进行实时幻觉检测,而不需要手动注释。此外,我们还介绍了HELM,这是一种评估多个LLM幻觉检测的新基准,具有不同的LLM输出和LLM在推理过程中的内部状态。原创 2024-05-24 14:08:42 · 183 阅读 · 0 评论 -
ERBENCH: AN ENTITY-RELATIONSHIP BASED AUTOMATICALLY VERIFIABLE HALLUCINATION BENCHMARK FOR LLMs
大型语言模型(LLM)在各种应用程序中取得了前所未有的性能,但其评估仍然是一个关键问题。现有的幻觉基准要么是静态的,要么缺乏可调整的复杂性来进行彻底的分析。我们认为,利用现有的关系数据库是一种很有前途的构建基准的方法,因为它们通过函数依赖关系进行了准确的知识描述。我们建议ERBench自动将任何关系数据库转换为基于实体关系(ER)模型的基准。我们的关键思想是使用数据库模式、记录和功能依赖关系来构建问题,以便可以自动验证这些问题。原创 2024-05-24 11:24:13 · 74 阅读 · 0 评论 -
Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem
大型语言模型(LLM)在各种自然语言处理(NLP)任务中是非常有效的。然而,他们很容易在被称为幻觉的模糊环境中产生不可靠的猜测。本文基于无法回答的数学单词问题,提出了一种评估问答中LLM幻觉的新方法。为了支持这种方法,我们创新性地开发了一个名为“无法回答的数学单词问题”(UMWP)的数据集,该数据集包括五类5200个问题。我们开发了一种结合文本相似性和数学表达式检测的评估方法,以确定LLM是否认为问题是无法回答的。原创 2024-05-24 09:51:04 · 220 阅读 · 0 评论 -
EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal LLMs
在过去的几年里,多模态大型语言模型(MLLMs)引起了越来越多的关注,但它们仍然可能生成包括相应图像中不存在的对象的描述,这种现象被称为对象幻觉。为了消除幻觉,现有的方法手动注释有幻觉和没有幻觉的配对响应,然后使用各种对齐算法来提高图像和文本之间的对齐能力。然而,它们不仅在微调阶段需要大量的计算资源,而且还需要昂贵的人工注释来构建对齐算法所需的配对数据。为了解决这些问题,我们借用了遗忘的思想,提出了一种高效的细粒度遗忘框架(EFUF),它可以消除幻觉,而不需要配对数据。原创 2024-04-22 10:25:18 · 498 阅读 · 0 评论 -
Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models
幻觉对大型语言模型(LLM)的实际实现提出了重大挑战。参数知识在生成事实内容时的使用受到LLM有限知识的限制,可能导致内部幻觉。虽然整合外部信息有助于填补知识空白,但也会带来不相关信息的风险,从而增加产生外部幻觉的可能性。LLM中的参数知识与外部信息的仔细而平衡的整合对于缓解幻觉至关重要。在这项研究中,我们提出了Rowen,这是一种新的方法,通过针对幻觉输出量身定制的选择性检索增强过程来增强LLM。该过程由多语言语义感知检测模块控制,该模块评估针对相同查询的不同语言的扰动响应的一致性。原创 2024-04-19 11:02:34 · 216 阅读 · 0 评论 -
Enhancing Large Language Models with Pseudo- and MultisourceKnowledge Graphs for Open-ended QA
减轻大型语言模型(LLM)的幻觉并增强它们是一项至关重要的任务。尽管一些现有的方法采用了模型自我增强技术,但它们不能有效地解决未知的事实幻觉。使用知识图谱(KG)增强方法无法同时解决不同KG来源的泛化和开放式回答问题的增强问题。为了解决这些限制,提出了一个结合伪图生成和原子知识验证的框架。在开放式问答环境中使用KG增强LLM是通过利用伪图生成来实现的。原子知识验证利用原子级的知识查询和验证来实现不同KG来源下的可推广性。与基线相比,这种方法在开放式问题的ROUGE-L分数上至少提高了11.5分。原创 2024-04-12 15:16:40 · 106 阅读 · 0 评论 -
A Survey on Large Language Model Hallucination via a Creativity Perspective
大型语言模型(LLM)中的幻觉总是被视为局限性。然而,它们是否也是创造力的源泉?这项调查探讨了这种可能性,表明幻觉可能通过培养创造力来促进LLM的应用。这项调查首先回顾了幻觉的分类及其对关键应用中LLM可靠性的负面影响。然后,通过历史实例和最近的相关理论,调查探讨了幻觉在LLM中的潜在创造性益处。为了阐明这种联系的价值和评估标准,我们深入研究了创造力的定义和评估方法。在发散和趋同思维阶段的框架下,本调查系统地回顾了关于在LLM中转化和利用幻觉创造的文献。原创 2024-03-20 15:49:46 · 163 阅读 · 0 评论 -
Analyzing and Mitigating False Premise Hallucinations in Large Language Models
大型语言模型(LLM)已经显示出令人印象深刻的功能,但仍然存在幻觉问题。这一问题的一个重要类型是假前提幻觉,我们将其定义为LLM在面对假前提问题时产生幻觉文本的现象。在本文中,我们对假前提幻觉进行了全面的分析,并阐明了其内部工作机制:一小部分注意力头(我们称之为假前提头)干扰了知识提取过程,导致了假前提幻觉的发生。基于我们的分析,我们提出了一种新的、有效的减轻假前提幻觉的方法——FAITH(用于制造幻觉的假前提注意头约束)。它约束了模型推理过程中的假前提注意头。原创 2024-03-19 15:34:52 · 68 阅读 · 0 评论 -
TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space
大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,他们有时会产生幻觉,尤其是在拥有正确知识的情况下,他们可能会产生不真实的反应。在本文中,我们提出了TruthX,这是一种推理时间方法,通过编辑LLM在真实空间中的内部表示来引出LLM的真实性。TruthX使用自动编码器将LLM的表示分别映射到语义和真实潜在空间,并应用对比学习来识别真实空间内的真实编辑方向。在推理过程中,TruthX通过编辑LLM在真实空间中的内部表示,有效地增强了LLM的真实性。原创 2024-03-17 11:46:54 · 304 阅读 · 0 评论 -
Visual Hallucinations of Multi-modal Large Language Models
视觉幻觉(VH)是指多模态LLM(MLLM)在视觉问答中想象图像的错误细节。现有研究仅在现有图像数据集中发现VH实例,由于此类VH实例的多样性有限,导致对MLLM在VH下的性能理解存在偏差。在这项工作中,我们提出了一种称为VHTest的工具来生成一组不同的VH实例。具体而言,VHTest在现有图像数据集中找到一些初始VH实例(例如,COCO),为每个VH模式生成文本描述,并使用文本到图像生成模型(例如,DALL·e-3)基于文本描述生成VH图像。原创 2024-03-13 16:34:39 · 175 阅读 · 0 评论 -
Unified Hallucination Detection for Multimodal Large Language Models
尽管在多模态任务方面取得了重大进展,但多模态大型语言模型(MLLMs)仍受到幻觉这一关键问题的困扰。因此,在MLLMs中可靠地检测这种幻觉已成为模型评估和实际应用部署保障的一个重要方面。先前在这一领域的研究受到了对单一任务的狭隘关注、所涉及的幻觉类别范围不足以及缺乏详细粒度的限制。为了应对这些挑战,我们的工作拓展了幻觉检测的研究视野。我们提出了一种新的元评估基准,MHaluBench,它经过精心制作,有助于评估幻觉检测方法的进展。原创 2024-03-12 17:32:06 · 161 阅读 · 0 评论 -
Hallucination is Inevitable: An Innate Limitation of Large Language Models
幻觉已经被广泛认为是大型语言模型(LLM)的一个显著缺点。已经有许多作品试图减少幻觉的程度。到目前为止,这些努力大多是实证性的,无法回答是否可以完全消除这种现象的根本问题。在本文中,我们将问题形式化,并表明在LLM中消除幻觉是不可能的。具体来说,我们定义了一个形式世界,其中幻觉被定义为可计算LLM和可计算基准值函数之间的不一致。通过使用学习理论的结果,我们表明LLM不能学习所有的可计算函数,因此总是会产生幻觉。由于形式世界是更复杂的现实世界的一部分,幻觉对于现实世界LLM来说也是不可避免的。原创 2024-03-03 21:55:09 · 331 阅读 · 0 评论 -
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
随着大型语言模型(LLM)在编写类似人类文本的能力方面不断进步,一个关键的挑战仍然围绕着它们的“幻觉”倾向——生成看似真实但毫无根据的内容。幻觉问题可以说是将这些强大的LLM安全部署到影响人们生活的现实世界生产系统中的最大障碍。在实际环境中广泛采用LLM的过程在很大程度上依赖于解决和减轻幻觉。与专注于有限任务的传统人工智能系统不同,LLM在训练过程中接触到了大量的在线文本数据。原创 2024-02-18 11:38:28 · 893 阅读 · 0 评论 -
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models
在大型语言模型(LLM)时代,幻觉(即生成事实上不正确内容的趋势)对LLM在现实世界应用中的可信和可靠部署提出了巨大挑战。为了解决LLM幻觉,应该好好研究三个关键问题:如何检测幻觉(检测),LLM为什么会产生幻觉(来源),以及如何减轻幻觉(缓解)。为了应对这些挑战,本工作对LLM幻觉进行了系统的实证研究,重点关注幻觉检测、来源和缓解三个方面。特别地,我们构建了一个新的幻觉基准HaluEval 2.0,并设计了一种简单有效的LLM幻觉检测方法。原创 2024-02-19 10:25:13 · 1100 阅读 · 0 评论 -
Knowledge Verification to Nip Hallucination in the Bud
尽管大型语言模型(LLM)在人类对齐后的各种任务中表现出了非凡的性能,但它们仍然可能产生听起来合理但与事实知识相矛盾的反应,这种现象被称为幻觉。在本文中,我们通过验证和最小化对准数据中存在的外部知识与基础LLM中嵌入的内部知识之间的不一致性,证明了减轻幻觉的可行性。具体而言,我们提出了一种称为知识一致性对齐(KCA)的新方法,该方法使用一个良好对齐的LLM来自动制定基于外部知识的评估,以评估基础LLM的知识边界。为了解决对齐数据中的知识不一致问题,KCA实施了几种特定策略来处理这些数据实例。原创 2024-03-07 13:29:36 · 133 阅读 · 0 评论