A Survey of Large Language Models大模型综述论文章节总结

A Survey of LLM

人大译A Survey of Large Language Models

这篇论文全面回顾了大型语言模型 (LLM) 的最新进展,重点关注其发展背景、关键发现和主流技术。文章主要围绕 LLM 的四个主要方面展开:

1引言

自从 1950 年图灵测试被提出以来,人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统,这使得开发能够理解和掌握语言的强大人工智能 (AI) 算法成为一项重大挑战。在过去二十年里,语言建模作为一种主要方法,被广泛研究用于自然语言处理 (NLP) 中的语言理解和生成,从统计语言模型发展到神经网络语言模型。最近,预训练语言模型 (PLM) 通过在大型语料库上预训练 Transformer 模型而提出,在解决各种 NLP 任务方面展现出强大的能力。由于研究人员发现模型缩放可以提高模型容量,他们进一步通过增加参数规模来研究缩放效应,甚至将参数规模扩大到更大的规模。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅在性能上取得了显著提升,而且还展现出一些小型语言模型(例如 BERT)所不具备的特殊能力(例如上下文学习)。为了区分不同参数规模的语言模型,研究界为包含数十亿或数百亿参数的 PLM 提出了“大型语言模型 (LLM)”这一术语。最近,LLM 的研究在学术界和工业界都取得了重大进展,其中最引人注目的是 ChatGPT(基于 LLM 开发的强大 AI 聊天机器人)的发布,这引起了社会的广泛关注。LLM 的技术进步对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI 算法的方式。考虑到这种快速的技术进步,在本调查中,我们通过介绍背景、关键发现和主流技术来回顾 LLM 的最新进展。特别是,我们专注于 LLM 的四个主要方面,即预训练、适应微调、利用和容量评估。此外,我们还总结了开发 LLM 的可用资源,并讨论了未来方向的剩余问题。本调查提供了关于 LLM 的最新文献综述,可以为研究人员和工程师提供有用的资源。

2概述

大模型要权衡尺度理论与涌现能力emergent的关系。尺度理论 Scaling law 是模型能力、数据尺寸之间的渐进关系,例如KM scaling law与Chinchilla scaling law。其中大模型涌现能力包括情景学习、指令调优、逐步微调(代表方法:思维链)

大模型关键技术:可伸缩性、训练、能力引导、对其调优、工具操作(计算器、搜索引擎、开发的APP)

工程方面。OpenAI采用迭代部署策略[134],按照五个阶段的开发和部署生命周期来开发模型和产品,旨在有效降低模型使用的潜在风险。 paper:Lessons learned on language model safety and misuse

GPT技术演进:从GPT1到4

3LLM的资源

总结公共api线上模型、指令微调与对其数据集

我们首先在4.1节中讨论数据的收集和处理,然后在4.2节中介绍常用的模型架构,最后在4.3节中介绍稳定有效地优化llm的训练技术。

4预训练

数据的收集和处理:

数据收集、数据预处理(质量过滤、去重、隐私删减、token化)、数据调度(多数据源数据混合配比、数据课表控制数据训练顺序)、

常用的模型架构:

架构(编码器-解码器、因果解码器和前缀解码器)使用混合专家MoE扩展参数;

Transformer架构

  • 四个主要配置(归一化、位置嵌入、激活函数以及注意和偏置);
  • 有两种常用的预训练任务(语言建模和去噪自编码);
  • 长上下文建模(扩展位置编码、适应上下文窗口);
  • 模型解码策略(贪婪搜索、随机采样)
优化llm的训练技术:

优化方法(批量训练、学习率、优化器 、训练稳定性)、模型训练建议(并行

### 大语言模型综述文章概述 大语言模型(LLM)的研究和发展正在迅速推进,相关的综述文章提供了全面的理解和支持。一份重要的英文版综述文章《A Survey of Large Language Models》于今年3月末发布在arXiv网站上[^3]。这份文档不仅系统性地整理了大语言模型的研究进展和技术核心,还探讨了许多关联的工作成果。 #### 主要内容覆盖范围 此综述从四个方面深入剖析了大语言模型: - **文献回顾**:涵盖了对现有研究工作的广泛评估,帮助理解领域内的现状与发展脉络[^1]。 - **模型使用**:描述了如何利用这些大型预训练模型执行特定任务的方式,例如通过信息量度量挑选示范案例或是采用强化学习框架优化选择过程等技术细节[^2]。 - **资源介绍**:列举了一系列支持开发者构建和实验新想法所需的工具集合,像开源的模型权重文件、应用程序接口(APIs)以及各类数据库资源等[^4]。 - **多模态扩展**:特别提到了一种新的趋势——即结合不同形式的数据输入来进行更复杂处理的能力(Multi-modal LLM),并对其潜力进行了展望[^5]。 #### 更新情况说明 为了保持内容的相关性和准确性,《A Survey of Large Language Models》经历了多次修订和完善,在6月底完成了大规模改稿工作,现在已经是第十一版(V11)。随着领域的快速变化,预计未来还将持续更新以反映最新的科研动态。 ```python # 示例代码展示获取最新版本综述的方法 import requests def get_latest_survey_version(): url = "https://arxiv.org/abs/path_to_paper" response = requests.get(url) if response.status_code == 200: return f"Latest version available at {url}" else: return "Failed to fetch the latest version" print(get_latest_survey_version()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值