【AI视野·今日NLP 自然语言处理论文速览第五十二期】Wed, 11 Oct 2023_sheared llama: accelerating language model pre-tra-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/133801390

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 11 Oct 2023
Totally 81 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
Authors Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin Yew Lin, Yuqing Yang, Lili Qiu
在长上下文场景中，大型语言模型法学硕士面临着三个主要挑战：更高的计算财务成本、更长的延迟和较差的性能。一些研究表明，法学硕士的表现取决于输入提示中相关关键信息问题的密度和位置。受这些发现的启发，我们建议使用 LongLLMLingua 进行快速压缩，以提高法学硕士对关键信息的感知，从而同时应对这三个挑战。我们对各种长上下文场景进行评估，包括单个多文档 QA、少量学习、摘要、合成任务和代码完成。实验结果表明，LongLLMLingua压缩提示可以以更低的成本获得更高的性能。端到端系统的延迟也减少了。例如，在 NaturalQuestions 基准测试中，LongLLMLingua 的性能比原始提示提高了 17.1，并且 GPT 3.5 Turbo 的输入标记数量减少了 4 倍。根据 LongBench 和 ZeroScrolls 基准测试，每 1,000 个样本可分别节省 28.5 和 27.4 的成本。此外，当以 2x 10x 的压缩率压缩 10k token 的提示时，LongLLMLingua 可以将端到端延迟加快 1.4x 3.8x。

Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency
Authors Eric Zelikman, Wanjing Anya Ma, Jasmine E. Tran, Diyi Yang, Jason D. Yeatman, Nick Haber
开发教育测试可能既昂贵又耗时，因为每个项目都必须由专家编写，然后通过收集数百名学生的回答进行评估。此外，许多测试需要在整个学年中进行多组不同的问题，以密切监控学生的进度，称为并行测试。在这项研究中，我们重点关注无声句子阅读效率的测试，用于评估学生随时间的阅读能力。为了生成高质量的并行测试，我们建议对大型语言模型 LLM 进行微调，以模拟以前的学生对未见过的项目的反应。通过这些模拟响应，我们可以估计每个项目的难度和模糊性。我们首先使用 GPT 4 按照专家制定的规则列表生成新的测试项目，然后应用微调的 LLM 根据心理测量的标准过滤项目。我们还提出了一种用于生成并行测试的最佳传输启发技术，并根据众包响应显示生成的测试与原始测试的难度和可靠性密切对应。

Lemur: Harmonizing Natural Language and Code for Language Agents
Authors Yiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu
我们推出了 Lemur 和 Lemur Chat，这是一种针对自然语言和编码功能进行优化的开放访问语言模型，可作为多功能语言代理的支柱。从语言聊天模型到功能性语言代理的演变要求模型不仅要掌握人类交互、推理和规划，还要确保扎根于相关环境。这需要模型中语言和编码能力的和谐结合。 Lemur 和 Lemur Chat 旨在解决这种必要性，展示两个领域的平衡熟练程度，这与现有的倾向于专注于任一领域的开源模型不同。通过使用代码密集型语料库进行细致的预训练以及对文本和代码数据进行指令微调，我们的模型在开源模型中的不同文本和编码基准上实现了最先进的平均性能。全面的实验证明了 Lemur 相对于现有开源模型的优越性，以及它在完全和部分可观察环境下涉及人类通信、工具使用和交互的各种代理任务的熟练程度。

Teaching Language Models to Hallucinate Less with Synthetic Tasks
Authors Erik Jones, Hamid Palangi, Clarisse Sim es, Varun Chandrasekaran, Subhabrata Mukherjee, Arindam Mitra, Ahmed Awadallah, Ece Kamar
大型语言模型法学硕士经常对抽象总结任务产生幻觉，例如基于文档的问答、会议总结和临床报告生成，即使所有必要的信息都包含在上下文中。然而，优化法学硕士以减少这些任务中的幻觉具有挑战性，因为幻觉很难在每个优化步骤中有效评估。在这项工作中，我们表明减少合成任务的幻觉也可以减少现实世界下游任务的幻觉。我们的方法 SynTra 首先设计了一个易于引发和测量幻觉的综合任务。接下来，它通过对合成任务进行前缀调整来优化 LLM 的系统消息，最后将系统消息传输到现实的、难以优化的任务。在三个现实的抽象摘要任务中，SynTra 仅使用合成检索任务进行监督，减少了两个 13B 参数 LLM 的幻觉。我们还发现，优化系统消息而不是模型权重可能至关重要，在合成任务上微调整个模型可能会违反直觉地增加幻觉。

Mistral 7B
Authors Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, L lio Renard Lavaud, Marie Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timoth e Lacroix, William El Sayed
我们推出 Mistral 7B v0.1，这是一个具有 70 亿个参数的语言模型，旨在实现卓越的性能和效率。 Mistral 7B 在所有评估基准中均优于 Llama 2 13B，在推理、数学和代码生成方面优于 Llama 1 34B。我们的模型利用分组查询注意力 GQA 来实现更快的推理，并结合滑动窗口注意力 SWA 来有效处理任意长度的序列，同时降低推理成本。我们还提供了一个经过微调以遵循指令的模型 Mistral 7B Instruct，该模型在人类和自动化基准测试上都超越了 Llama 2 13B Chat 模型。

Text Embeddings Reveal (Almost) As Much As Text
Authors John X. Morris, Volodymyr Kuleshov, Vitaly Shmatikov, Alexander M. Rush
文本嵌入揭示了多少关于原始文本的私人信息我们研究了嵌入文本反转的问题，重建以密集文本嵌入表示的全文。我们将问题描述为受控生成生成文本，当重新嵌入时，该文本接近潜在空间中的固定点。我们发现，尽管以嵌入为条件的朴素模型表现不佳，但迭代纠正和重新嵌入文本的多步骤方法能够准确恢复 32 个文本标记文本输入中的 92 个。我们训练我们的模型来解码来自两种最先进的嵌入模型的文本嵌入，并且还表明我们的模型可以从临床笔记数据集中恢复重要的个人信息全名。

Advancing Transformer's Capabilities in Commonsense Reasoning
Authors Yu Zhou, Yunqiu Han, Hanyu Zhou, Yulun Wu
通用预训练语言模型的最新进展在常识推理方面显示出了巨大的潜力。然而，当前的工作在包括 Com2Sense 数据集在内的标准常识推理基准上仍然表现不佳。我们认为这是由于与当前最先进的机器学习方法脱节造成的。在这项工作中，我们的目标是通过引入当前基于机器学习的方法来弥补这一差距，以改进常识推理任务中的通用预训练语言模型。具体来说，我们试验并系统地评估了包括知识转移、模型集成和引入额外的成对对比目标在内的方法。

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
Authors Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan
语言模型已经超出了我们有效评估它们的能力，但为了它们未来的发展，研究它们能力的前沿是至关重要的。我们认为现实世界的软件工程是一个丰富的、可持续的、具有挑战性的测试平台，用于评估下一代语言模型。因此，我们引入了 SWE bench，这是一个评估框架，包括来自真实 GitHub 问题的 2,294 个软件工程问题以及跨 12 个流行 Python 存储库的相应拉取请求。给定代码库以及要解决的问题的描述，语言模型的任务是编辑代码库以解决问题。解决 SWE 工作台中的问题通常需要同时理解和协调多个函数、类甚至文件之间的更改，调用模型与执行环境交互，处理极长的上下文并执行远远超出传统代码生成的复杂推理。我们的评估表明，最先进的专有模型和我们的微调模型 SWE Llama 只能解决最简单的问题。即使提供了预言机检索器，Claude 2 和 GPT 4 也分别仅解决了 4.8 和 1.7 个实例。

OmniLingo: Listening- and speaking-based language learning
Authors Francis M. Tyers, Nicholas Howell
在这篇演示论文中，我们介绍了 OmniLingo，一种用于为基于听力和口语的语言学习应用程序分发数据的架构，以及使用该架构构建的演示客户端。

TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models
Authors Xiao Wang, Yuansen Zhang, Tianze Chen, Songyang Gao, Senjie Jin, Xianjun Yang, Zhiheng Xi, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xuanjing Huang
一致的大语言模型法学硕士在解决任务、遵循指令和确保安全方面表现出卓越的能力。然而，这些一致的法学硕士的持续学习方面在很大程度上被忽视了。现有的持续学习基准缺乏足够的挑战来领导一致的法学硕士，因为它们的简单性和模型在指令调整期间的潜在暴露。在本文中，我们介绍了 TRACE，这是一种旨在评估法学硕士持续学习的新颖基准。 TRACE 由 8 个不同的数据集组成，涵盖具有挑战性的任务，包括特定领域的任务、多语言功能、代码生成和数学推理。所有数据集均标准化为统一格式，可轻松自动评估法学硕士。我们的实验表明，经过 TRACE 培训后，一致的法学硕士在一般能力和指令遵循能力方面都表现出显着下降。例如，在我们的数据集上进行训练后，llama2 chat 13B 在 gsm8k 数据集上的准确率从 28.8 急剧下降到 2。这凸显了在实现特定任务的绩效与保留法学硕士原有实力之间找到适当权衡的挑战。实证研究结果表明，本质上配备推理路径的任务对于保持法学硕士的某些能力免受潜在下降的影响非常重要。受此启发，我们引入了推理增强持续学习 RCL 方法。

Quality Control at Your Fingertips: Quality-Aware Translation Models
Authors Christian Tomani, David Vilar, Markus Freitag, Colin Cherry, Subhajit Naskar, Mara Finkelstein, Daniel Cremers
最大后验 MAP 解码是神经机器翻译 NMT 模型中使用最广泛的解码策略。基本假设是模型概率与人类判断密切相关，更好的翻译更有可能。然而，研究表明，这种假设并不总是成立，直接优化效用函数的解码策略（例如最小贝叶斯风险 MBR 或质量感知解码）可以比标准 MAP 解码显着提高翻译质量。这些方法的主要缺点是它们需要额外的模型来预测效用，并且在解码过程中需要额外的步骤，这使得整个过程的计算量要求很高。在本文中，我们建议通过训练 NMT 模型来估计其自身输出的质量，从而使 NMT 模型本身具有质量意识。在解码过程中，我们可以使用模型自身的质量估计来指导生成过程并产生尽可能最高质量的翻译。我们证明该模型可以在翻译过程中自我评估自己的输出，从而无需单独的质量估计模型。此外，我们还表明，在 MAP 解码过程中使用此质量信号作为提示可以显着提高翻译质量。

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration
Authors Piyush Singh Pasi, Karthikeya Battepati, Preethi Jyothi, Ganesh Ramakrishnan, Tanmay Mahapatra, Manoj Singh
音频到文本对齐的问题已经在训练期间使用完整的监督进行了大量的研究。然而，这通常不是在长音频记录的情况下，其中被查询的文本不会逐字出现在音频文件中。这项工作是与一个名为 CARE India 的非政府组织合作进行的，该组织收集居住在印度比哈尔邦农村地区的年轻母亲的长音频健康调查。给定从用于指导这些调查的调查问卷中提取的问题，我们的目标是在长录音中找到问题的提出位置。这对于非洲和亚洲组织来说非常有价值，否则它们将不得不费力地通过漫长而嘈杂的录音来找到感兴趣的问题和答案。我们提出的框架 INDENT 使用基于交叉注意力的模型和有关句子时间顺序的先验信息来学习捕获底层口语文本语义的语音嵌入。这些学习到的嵌入用于在推理时根据文本查询检索相应的音频片段。我们凭经验证明，与使用基于文本的启发式方法获得的模型相比，我们的模型的 R avg 的有效性显着提高了约 3 个。我们还展示了使用最先进的印度语言 ASR 模型生成的嘈杂 ASR 在代替语音时如何产生更好的结果。仅接受印地语数据训练的 INDENT 能够满足语义共享文本空间支持的所有语言。

Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning
Authors Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen
LLaMA Touvron et al., 2023a b 和其他最近出现的中等规模的大型语言模型 LLM 的流行凸显了构建更小但更强大的 LLM 的潜力。无论如何，在数万亿代币上从头开始训练此类模型的成本仍然很高。在这项工作中，我们研究结构化剪枝作为从预先训练的较大模型开发较小的法学硕士的有效手段。我们的方法采用了两项关键技术：1 有针对性的结构化修剪，通过以端到端的方式删除层、头部以及中间和隐藏维度，将较大的模型修剪为指定的目标形状；2 动态批量加载，动态更新组合每个训练批次中的采样数据基于不同领域的不同损失。我们通过展示剪切 LLaMA 系列、将 LLaMA2 7B 模型修剪至 1.3B 和 2.7B 参数来证明我们方法的有效性。在广泛的下游和指令调优评估中，剪切 LLaMA 模型的性能优于同等大小的最先进的开源模型，例如 Pythia、INCITE 和 OpenLLaMA 模型，而与从头开始训练此类模型相比，仅需要 3 次计算。

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models
Authors Anni Zou, Zhuosheng Zhang, Hai Zhao, Xiangru Tang
大型语言模型法学硕士通过利用思想链 CoT 提示展现了卓越的推理能力，它生成中间推理链作为推导答案的基本原理。然而，当前的 CoT 方法要么简单地采用通用提示，例如“让我们一步一步思考”，要么严重依赖手工制作的特定任务演示来获得更好的性能，从而在性能和泛化之间产生了不可避免的差距。为了弥补这一差距，我们提出了 Meta CoT，这是一种在输入问题类型未知的混合任务场景中通用的 CoT 提示方法。 Meta CoT 首先根据输入问题对场景进行分类，然后以自动模式从相应的数据池中构建各种演示。 Meta CoT在十个公共基准推理任务上同时享有出色的表现和卓越的泛化能力。值得注意的是，Meta CoT 在 SVAMP 93.7 上实现了最先进的结果，无需任何额外的程序辅助方法。

Learning Multiplex Embeddings on Text-rich Networks with One Text Encoder
Authors Bowen Jin, Wentao Zhang, Yu Zhang, Yu Meng, Han Zhao, Jiawei Han
在现实场景中，网络中的文本通常通过多种语义关系链接，例如，学术网络中的论文被其他出版物引用，由同一作者撰写，或在同一地点发表，其中文本文档及其关系形成一个语义关系。多路文