A Survey of Large Language Models大模型综述论文章节总结

原创

已于 2024-10-17 17:31:31 修改 · 2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #论文笔记

于 2024-10-17 17:28:38 首次发布

A Survey of LLM

人大译A Survey of Large Language Models

这篇论文全面回顾了大型语言模型 (LLM) 的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕 LLM 的四个主要方面展开：

1引言

自从 1950 年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能 (AI) 算法成为一项重大挑战。在过去二十年里，语言建模作为一种主要方法，被广泛研究用于自然语言处理 (NLP) 中的语言理解和生成，从统计语言模型发展到神经网络语言模型。最近，预训练语言模型 (PLM) 通过在大型语料库上预训练 Transformer 模型而提出，在解决各种 NLP 任务方面展现出强大的能力。由于研究人员发现模型缩放可以提高模型容量，他们进一步通过增加参数规模来研究缩放效应，甚至将参数规模扩大到更大的规模。有趣的是，当参数规模超过一定水平时，这些扩大的语言模型不仅在性能上取得了显著提升，而且还展现出一些小型语言模型（例如 BERT）所不具备的特殊能力（例如上下文学习）。为了区分不同参数规模的语言模型，研究界为包含数十亿或数百亿参数的 PLM 提出了“大型语言模型 (LLM)”这一术语。最近，LLM 的研究在学术界和工业界都取得了重大进展，其中最引人注目的是 ChatGPT（基于 LLM 开发的强大 AI 聊天机器人）的发布，这引起了社会的广泛关注。LLM 的技术进步对整个 AI 社区产生了重要影响，这将彻底改变我们开发和使用 AI 算法的方式。考虑到这种快速的技术进步，在本调查中，我们通过介绍背景、关键发现和主流技术来回顾 LLM 的最新进展。特别是，我们专注于 LLM 的四个主要方面，即预训练、适应微调、利用和容量评估。此外，我们还总结了开发 LLM 的可用资源，并讨论了未来方向的剩余问题。本调查提供了关于 LLM 的最新文献综述，可以为研究人员和工程师提供有用的资源。