How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study

本文研究了大型语言模型(LLM)如何分层编码上下文知识,通过探测任务构建数据集,利用ChatGPT生成多样化证据。实验发现,LLM倾向于在上层编码知识,知识主要存在于较低层的实体token中,且当提供不相关证据时,早期上下文知识会被遗忘。研究结果揭示了LLM内部机制的一个方面。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study》的翻译。

大型语言模型如何编码上下文知识?分层探究研究

摘要

先前的工作已经展示了大型语言模型在检索事实和处理上下文知识方面的有趣能力。然而,对LLM编码知识的分层能力的研究有限,这挑战了我们对其内部机制的理解。在本文中,我们首次尝试通过探测任务来研究LLM的分层能力。我们利用ChatGPT强大的生成能力来构建探测数据集,提供与各种事实相对应的多样性和连贯性证据。我们使用V可用信息作为验证度量,以更好地反映跨不同层编码上下文知识的能力。我们对冲突和新获得的知识的实验表明,LLM:(1)更喜欢在上层编码更多的上下文知识;(2) 主要将上下文知识编码在较低层的知识相关实体token内,同时逐渐扩展在较高层的其他token内的更多知识;以及(3)当提供了不相关的证据时,逐渐忘记保留在中间层内的早期上下文知识。代码公开于https://github.com/Jometeorie/probing_llama.

1 引言

2 相关工作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值