A Survey of LLM
人大译A Survey of Large Language Models
这篇论文全面回顾了大型语言模型 (LLM) 的最新进展,重点关注其发展背景、关键发现和主流技术。文章主要围绕 LLM 的四个主要方面展开:
1引言
自从 1950 年图灵测试被提出以来,人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统,这使得开发能够理解和掌握语言的强大人工智能 (AI) 算法成为一项重大挑战。在过去二十年里,语言建模作为一种主要方法,被广泛研究用于自然语言处理 (NLP) 中的语言理解和生成,从统计语言模型发展到神经网络语言模型。最近,预训练语言模型 (PLM) 通过在大型语料库上预训练 Transformer 模型而提出,在解决各种 NLP 任务方面展现出强大的能力。由于研究人员发现模型缩放可以提高模型容量,他们进一步通过增加参数规模来研究缩放效应,甚至将参数规模扩大到更大的规模。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅在性能上取得了显著提升,而且还展现出一些小型语言模型(例如 BERT)所不具备的特殊能力(例如上下文学习)。为了区分不同参数规模的语言模型,研究界为包含数十亿或数百亿参数的 PLM 提出了“大型语言模型 (LLM)”这一术语。最近,LLM 的研究在学术界和工业界都取得了重大进展,其中最引人注目的是 ChatGPT(基于 LLM 开发的强大 AI 聊天机器人)的发布,这引起了社会的广泛关注。LLM 的技术进步对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI 算法的方式。考虑到这种快速的技术进步,在本调查中,我们通过介绍背景、关键发现和主流技术来回顾 LLM 的最新进展。特别是,我们专注于 LLM 的四个主要方面,即预训练、适应微调、利用和容量评估。此外,我们还总结了开发 LLM 的可用资源,并讨论了未来方向的剩余问题。本调查提供了关于 LLM 的最新文献综述,可以为研究人员和工程师提供有用的资源。
2概述
大模型要权衡尺度理论与涌现能力emergent的关系。尺度理论 Scaling law 是模型能力、数据尺寸之间的渐进关系,例如KM scaling law与Chinchilla scaling law。其中大模型涌现能力包括情景学习、指令调优、逐步微调(代表方法:思维链)
大模型关键技术:可伸缩性、训练、能力引导、对其调优、工具操作(计算器、搜索引擎、开发的APP)
工程方面。OpenAI采用迭代部署策略[134],按照五个阶段的开发和部署生命周期来开发模型和产品,旨在有效降低模型使用的潜在风险。 paper:Lessons learned on language model safety and misuse
GPT技术演进:从GPT1到4
3LLM的资源
总结公共api线上模型、指令微调与对其数据集
我们首先在4.1节中讨论数据的收集和处理,然后在4.2节中介绍常用的模型架构,最后在4.3节中介绍稳定有效地优化llm的训练技术。
4预训练
数据的收集和处理:
数据收集、数据预处理(质量过滤、去重、隐私删减、token化)、数据调度(多数据源数据混合配比、数据课表控制数据训练顺序)、
常用的模型架构:
架构(编码器-解码器、因果解码器和前缀解码器)使用混合专家MoE扩展参数;
Transformer架构
- 四个主要配置(归一化、位置嵌入、激活函数以及注意和偏置);
- 有两种常用的预训练任务(语言建模和去噪自编码);
- 长上下文建模(扩展位置编码、适应上下文窗口);
- 模型解码策略(贪婪搜索、随机采样)
优化llm的训练技术:
优化方法(批量训练、学习率、优化器 、训练稳定性)、模型训练建议(并行