5分钟带你看懂什么是大语言模型（LLM)

冻感糕人~

于 2025-03-26 14:37:03 发布

阅读量1k

点赞数 28

文章标签：人工智能 AI大模型大模型入门 LLM 大语言模型大模型应用大模型微调

本文链接：https://blog.csdn.net/python12345_/article/details/146528799

版权

想象一下，你偶然发现了一份电影剧本，里面描述了一个人与他们的 AI 助手之间的对话场景。不过，剧本上 AI 的回应部分被撕掉了。现在，假设你有一台神奇的机器，它可以读取任何文本并预测下一个合理的单词。这样，你就可以利用这台机器来补全剧本–先输入已有的文本，让机器预测 AI 该如何回复的第一个词，然后不断重复这个过程，逐步生成完整的对话。这其实就是聊天机器人背后的原理。

基本原理

一个大语言模型本质上就是一个复杂的数学函数，它能预测任何一段文本的下一个词。它并不是确定地选择一个词，而是会给所有可能的词分配一个概率。要打造一个聊天机器人，做法就是先设定一个对话场景，再加上用户输入的内容作为对话的一部分。然后，模型会根据这些输入不断预测 AI 助手接下来可能会说的话，并把预测结果呈现给用户。

为了让输出的内容更自然，模型不会每次都只选取概率最高的词，而是会在概率较高的词中随机挑选一些。这也意味着，即使输入相同的内容，每次运行时，模型的回复也可能不同。

预训练

那么，模型是如何学会进行这些预测的呢？答案是通过处理海量文本–通常是从互联网上获取的数据。以 GPT-3 为例，它的训练文本量大到如果让一个普通人不间断地阅读这些内容，24 小时不停歇，大约需要 2600 多年才能读完。而更大的模型训练的数据量更加庞大。

你可以把训练过程想象成调整一台拥有大量旋钮的机器。一个语言模型的行为完全由它内部成千上亿个连续数值（参数或权重）决定。调整这些参数会改变模型对下一个词的预测概率。所谓“大”语言模型，就是指这些参数的数量能达到数千亿级别。

但有趣的是，这些参数并不是由人手动设定的，而是从随机值开始的。最初，模型输出的内容完全是胡言乱语，但随着训练的进行，它的预测能力会不断提高。训练的方式是让模型接触大量的文本示例，比如一段话的前面几句话，然后让模型预测最后一个单词，并将它的预测结果与真实单词进行对比。接着，使用一种叫做反向传播（backpropagation）的算法，来调整模型的参数，让它下次更有可能预测出正确的词，减少错误的概率。

当这个过程重复进行数万亿次后，模型不仅能在训练数据上做出准确预测，还能对从未见过的文本做出合理推测。这就是为什么它能生成流畅、自然，甚至有用的回答。

强化学习微调

不过，光有这种基础训练（预训练）还不够。因为这仅仅是补全任意一段网络文本的能力，并不能让它成为一个合格的 AI 助手。为此，模型还会经过另一种重要的训练方式，叫做“基于人类反馈的强化学习”（Reinforcement Learning with Human Feedback，简称 RLHF）。

这个阶段，人工评审员会标记那些不太有帮助或不合适的回答，并提供更好的改进版本。然后，模型的参数会进一步调整，以使它更倾向于生成用户喜欢的答案。

计算资源与技术架构

预训练阶段，这种庞大的计算量之所以能实现，主要是依靠专门设计的计算芯片–GPU（图形处理单元）。但并不是所有语言模型都能轻松实现并行计算。在 2017 年之前，大多数语言模型都是按顺序逐个处理单词的。但后来，谷歌的一个研究团队提出了一种新架构–Transformer。

Transformer 及注意力机制

Transformer 并不是逐个读取文本，而是能一次性吸收所有内容，并行处理。它的核心机制之一是“注意力机制”（Attention）。简单来说，注意力机制让模型可以关注上下文信息，并动态调整对不同单词的理解。例如，遇到 “bank” 这个词时，它可以根据前后语境判断是“银行”还是“河岸”。

Transformer 还包含另一种重要的计算单元，叫做前馈神经网络（Feed Forward Neural Network），它让模型能存储更多语言模式，提高理解能力。所有这些数据会在模型内部不断流转，经过多层计算，使得每个单词的“数值表示”能够编码更多有用信息。最终，这个计算过程会输出一个预测结果，表示下一个词最可能是什么。

模型行为的不可解释性

虽然研究人员设计了模型的架构，但具体的行为是训练过程中“自发涌现”的。这意味着，我们很难准确解释模型为什么会给出某个特定的答案。尽管如此，当你用这些大型语言模型进行对话时，你会发现它们生成的文本往往流畅、自然，有时候甚至超出预期。