【AI视野·今日NLP 自然语言处理论文速览 第三十九期】Fri, 22 Sep 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 22 Sep 2023
Totally 59 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
Authors Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia
我们提出了 LongLoRA,这是一种有效的微调方法,可以扩展预训练的大型语言模型 LLM 的上下文大小,并且计算成本有限。通常,训练具有长上下文大小的法学硕士的计算成本很高,需要大量的训练时间和 GPU 资源。例如,在 8192 的上下文长度上进行训练,自注意力层的计算成本是 2048 的 16 倍。在本文中,我们从两个方面加速了 LLM 的上下文扩展。一方面,虽然推理过程中需要密集的全局注意力,但通过稀疏的局部注意力可以有效且高效地对模型进行微调。所提出的短转移注意力有效地实现了上下文扩展,从而节省了不平凡的计算量,并且具有与普通注意力微调相似的性能。特别是,它在训练中只需两行代码即可实现,而在推理中是可选的。另一方面,我们重新审视上下文扩展的参数有效微调机制。值得注意的是,我们发现用于上下文扩展的 LoRA 在可训练嵌入和标准化的前提下效果很好。 LongLoRA 在 LLaMA2 模型(7B、13B 到 70B)的各种任务上展示了强有力的实证结果。 LongLoRA 在单个 8x A100 机器上采用 LLaMA2 7B 从 4k 上下文到 100k,或 LLaMA2 70B 到 32k。 LongLoRA 扩展了模型上下文,同时保留了其原始架构,并且与大多数现有技术(例如 FlashAttention 2)兼容。此外,为了使 LongLoRA 实用,我们收集了一个数据集 LongQA,用于监督微调。

Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models
Authors Levon Haroutunian, Zhuang Li, Lucian Galescu, Philip Cohen, Raj Tumuluri, Gholamreza Haffari
大型语言模型 法学硕士在自然语言生成方面展示了令人印象深刻的能力。然而,它们的输出质量可能不一致,这给从逻辑形式 LF 生成自然语言带来了挑战。此任务要求生成的输出能够体现 LF 的精确语义,而不会丢失任何 LF 语义或产生任何幻觉。在这项工作中,我们通过提出一种新颖的生成和重新排序方法来解决这个问题。我们的方法包括首先通过提示 LLM 生成一组候选输出,然后使用特定于任务的重新排序模型对它们进行重新排序。此外,我们还整理了一个手动收集的数据集,以评估不同排名指标和人类判断之间的一致性。所选的排名指标用于增强重新排名模型的训练和评估。通过对三个不同的数据集进行广泛的实验,我们证明,通过三个综合指标衡量,我们的重排序器选择的候选者在语义一致性和流畅性方面优于基线方法选择的候选者。

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
Authors Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans
我们揭露了自回归大型语言模型法学硕士中令人惊讶的泛化失败。如果模型在 A is B 形式的句子上进行训练,它不会自动泛化到相反的方向 B is A 。这就是逆转咒。例如,如果一个模型以 Olaf Scholz was the ninth Chancellor of German 为对象进行训练,那么它不会自动回答“谁是德国第九任总理”这个问题。此外,Olaf Scholz 正确答案的可能性不会高于随机名称的可能性。因此,模型表现出逻辑演绎的基本失败,并且没有概括其训练集中的普遍模式,即如果 A 是 B 发生,则 B 是 A 更有可能发生。我们通过微调 GPT 3 和 Llama 1 的虚构陈述(例如 Uriah Hawthorne 是深渊旋律的作曲家)来提供逆转诅咒的证据,并表明它们无法正确回答谁创作了深渊旋律。逆转诅咒在模型大小和模型系列中都很稳健,并且不会通过数据增强得到缓解。我们还针对有关现实世界名人的问题评估 ChatGPT GPT 3.5 和 GPT 4,例如“谁是汤姆·克鲁斯的母亲 A Mary Lee Pfeiffer”以及相反的“谁是 Mary Lee Pfeiffer 的儿子”。 GPT 4 正确回答了前者的问题,当时为 79 个,而后者为 33 个。这表明逻辑演绎失败,我们假设是由逆转诅咒引起的。

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models
Authors Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu
大型语言模型法学硕士突破了自然语言理解的极限,并表现出了出色的问题解决能力。尽管取得了巨大的成功,但由于复杂的推理过程,大多数现有的开源LLM(例如LLaMA 2)在解决数学问题方面仍然远远不能令人满意。为了弥补这一差距,我们提出了 emph MetaMath,这是一种专门从事数学推理的微调语言模型。具体来说,我们首先通过从多个角度重写问题而无需额外知识来引导数学问题,从而产生一个名为 MetaMathQA 的新数据集。然后我们在 MetaMathQA 上微调 LLaMA 2 模型。两个流行基准(即用于数学推理的 GSM8K 和 MATH)的实验结果表明,MetaMath 的性能明显优于一套开源 LLM。我们的 MetaMath 7B 模型在 GSM8K 上达到 66.4,在 MATH 上达到 19.4,比相同尺寸的最先进模型高出 11.5 和 8.7。特别是,MetaMath 70B 在 GSM8K 上的准确率达到 82.3,略优于 GPT 3.5 Turbo。

Inspire the Large Language Model by External Knowledge on BioMedical Named Entity Recognition
Authors Junyi Bian, Jiaxuan Zheng, Yuyi Zhang, Shanfeng Zhu
大型语言模型法学硕士在许多 NLP 任务中表现出了主导性的性能,尤其是在生成任务中。然而,它们在某些信息提取任务中常常达不到要求,特别是那些需要特定领域知识的任务,例如生物医学命名实体识别 NER 。在本文中,受Chain of Thought的启发,我们利用LLM来解决生物医学NER,逐步将NER任务分解为实体跨度提取和实体类型确定。此外,对于实体类型确定,我们注入实体知识来解决LLM在预测实体类别时缺乏领域知识的问题。实验结果表明,与之前的几次 LLM 基线相比,我们的两步 BioNER 方法有了显着改进。

Improving VTE Identification through Adaptive NLP Model Selection and Clinical Expert Rule-based Classifier from Radiology Reports
Authors Jamie Deng, Yusen Wu, Hilary Hayssen, Brain Englum, Aman Kankaria, Minerva Mayorga Carlin, Shalini Sahoo, John Sorkin, Brajesh Lal, Yelena Yesha, Phuong Nguyen
快速、准确地识别静脉血栓栓塞症(VTE)是一种严重的心血管疾病,包括深静脉血栓形成 DVT 和肺栓塞 PE,对于有效治疗非常重要。在放射学报告中利用自然语言处理 NLP,自动化方法在从回顾性数据队列中识别 VTE 事件或帮助临床专家从放射学报告中识别 VTE 事件方面显示出有希望的进步。然而,由于标记的医学文本数据有限、放射学报告的复杂性和异质性以及数据不平衡,有效训练深度学习 DL 和 NLP 模型具有挑战性。本研究提出了深度学习方法的新方法组合,以及数据增强、自适应预训练 NLP 模型选择和基于临床专家 NLP 规则的分类器,以提高非结构化自由文本放射学报告中 VTE 识别的准确性。我们的实验结果证明了该模型的有效性,在预测 DVT 方面实现了令人印象深刻的 97 准确率和 97 F1 分数,在预测 PE 方面取得了出色的 98.3 准确率和 98.4 F1 分数。

The Cambridge Law Corpus: A Corpus for Legal AI Research
Authors Andreas stling, Holli Sargeant, Huiyuan Xie, Ludwig Bull, Alexander Terenin, Leif Jonsson, M ns Magnusson, Felix Steffek
我们介绍剑桥法律语料库 CLC,这是一个用于法律人工智能研究的语料库。它包含超过 250,000 个来自英国的法庭案件。大多数案例来自 21 世纪,但语料库中也包括 16 世纪的案例。本文介绍了该语料库的第一个版本,包含原始文本和元数据。与语料库一起,我们提供了由法律专家完成的 638 个案件的案件结果注释。使用带注释的数据,我们使用 GPT 3、GPT 4 和 RoBERTa 模型训练和评估案例结果提取,以提供基准。我们进行了广泛的法律和道德讨论,以解决该材料的潜在敏感性质。

On the Relationship between Skill Neurons and Robustness in Prompt Tuning
Authors Leon Ackermann, Xenia Ohmer
Prompt Tuning 是一种流行的参数高效微调方法,适用于预训练的大型语言模型 PLM。最近,基于 RoBERTa 的实验,有人建议提示调整会激活 Transformer 前馈网络中的特定神经元,这些神经元对于给定任务具有高度预测性和选择性。在本文中,我们使用 RoBERTa 和 T5 研究了与这些技能神经元相关的提示调整的稳健性。我们表明,针对特定任务调整的提示可以转移到相同类型的任务,但对于对抗性数据不是很稳健,T5 的稳健性比 RoBERTa 更高。同时,我们在 RoBERTa 中复制了技能神经元的存在,并进一步表明技能神经元似乎也存在于 T5 中。有趣的是,T5 在非对抗性数据上确定的技能神经元也是对抗性数据上最具预测性的神经元之一,而 RoBERTa 的情况并非如此。

SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References
Authors Matteo Gabburo, Siddhant Garg, Rik Koncel Kedziorski, Alessandro Moschitti
QA 系统的评估非常具有挑战性且昂贵,最可靠的方法是对问题答案的正确性进行人工注释。最近的工作 AVA、BEM 表明,基于 Transformer LM 编码器的相似性度量可以很好地转移到 QA 评估,但它们受到单个正确参考答案的使用的限制。我们提出了一种新的评估指标 SQuArE Sentence level QUEstion AnsweRingvaluation,使用多个参考答案结合多个正确和不正确的参考来进行句子形式的 QA。

Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
Authors Beizhe Hu, Qiang Sheng, Juan Cao, Yuhui Shi, Yang Li, Danding Wang, Peng Qi
检测假新闻既需要对各种线索的敏锐感知,又需要对现实世界背景的深刻理解,由于知识和能力的限制,这对于基于小语言模型 SLM 的检测器来说仍然具有挑战性。大型语言模型的最新进展 LLM 在各种任务中表现出了卓越的性能,但 LLM 是否以及如何帮助假新闻检测仍有待探索。在本文中,我们研究了法学硕士在假新闻检测方面的潜力。首先,我们进行了实证研究,发现复杂的 LLM(例如 GPT 3.5)通常可以揭露假新闻并提供理想的多视角原理,但仍然不如基本的 SLM、微调的 BERT。我们随后的分析将这种差距归因于法学硕士无法正确选择和整合理由来得出结论。基于这些发现,我们建议当前的法学硕士可能不会在假新闻检测中替
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值