大模型综述_baichuan2 是decoder-only么-CSDN博客

本文链接：https://blog.csdn.net/posuosini/article/details/136260923

大模型常识

知识星球 | 深度连接铁杆粉丝，运营高品质社群，知识变现的工具 (zsxq.com)

简介

一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（Large Language Model，LLM）是针对语言的大模型。

175B、60B、540B等：
- 这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。
nB模型推理需要多少显存：
- 考虑模型参数都是fp16，2nG的显存能把模型加载。
nB模型训练需要多少显存：
- 基础显存：模型参数+梯度+优化器，总共16nG。
- activation占用显存，和max len、batch size有关
- 优化器部分必须用fp32（似乎fp16会导致训练不稳定）对于常用的 AdamW 来说，需要储存两倍的模型参数（用来储存一阶和二阶momentum）

大模型优缺点

优点

可以利用大量的无标注数据来训练一个通用的模型，然后再用少量的有标注数据来微调模型，以适应特定的任务。这种预训练和微调的方法可以减少数据标注的成本和时间，提高模型的泛化能力；
可以利用生成式人工智能技术来产生新颖和有价值的内容，例如图像、文本、音乐等。这种生成能力可以帮助用户在创意、娱乐、教育等领域获得更好的体验和效果；
可以利用涌现能力（Emergent Capabilities）来完成一些之前无法完成或者很难完成的任务，例如数学应用题、常识推理、符号操作等。这种涌现能力可以反映模型的智能水平和推理能力。

缺点

需要消耗大量的计算资源和存储资源来训练和运行，这会增加经济和环境的负担。据估计，训练一个GPT-3模型需要消耗约30万美元，并产生约284吨二氧化碳排放；
需要面对数据质量和安全性的问题，例如数据偏见、数据泄露、数据滥用等。这些问题可能会导致模型产生不准确或不道德的输出，并影响用户或社会的利益；
需要考虑可解释性、可靠性、可持续性等方面的挑战，例如如何理解和控制模型的行为、如何保证模型的正确性和稳定性、如何平衡模型的效益和风险等。这些挑战需要多方面的研究和合作，以确保大模型能够健康地发展。

底层架构类别

encoder-only类型的更擅长做分类；
encoder-decoder类型的擅长输出强烈依赖输入的，比如翻译和文本总结，尤其擅长处理输入和输出序列之间存在复杂映射关系的任务
而其他类型的就用decoder-only，如各种Q&A。虽然encoder-only没有decoder-only类型的流行

大模型种类

简介

现在为什么那么多人以清华大学的ChatGLM-6B为基座进行试验? - 知乎

目前，开源的大语言模型主要有三大类：

ChatGLM衍生的大模型（wenda、ChatSQL等）
LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chimera等）
Bloom衍生的大模型（Bloomz、BELLE、Phoenix等）。

其中，ChatGLM-6B主要以中英双语进行训练，LLaMA主要以英语为主要语言的拉丁语系进行训练，而Bloom使用了46种自然语言、13种编程语言进行训练。

开源领域 ChatGLM, LLAMA, RWKV 主要就是这3种模型， 中文好一点就是 ChatGLM , 潜力最好的就是LLAMA ，RNN架构决定RWKV有很好的 Length Extrapolation

Chatglm3

介绍：ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性：

更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，* ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能*。
更完整的功能支持： ChatGLM3-6B 采用了全新设计的 Prompt 格式，除正常的多轮对话外。同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。
更全面的开源序列： 除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放 ，在填写问卷进行登记后亦允许免费商业使用。

Github 代码：GitHub - THUDM/ChatGLM3: ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型

模型架构对比：ChatGLM、ChatGLM2、ChatGLM3模型架构对比

模型地址：

huggingface：https://huggingface.co/THUDM/chatglm3-6b

modelscope：魔搭社区

项目代码：DeepSpeed框架对ChatGLM-6B的流水线并行实战

Baichuan2

介绍：Baichuan 2 是百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练。

Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。

本次发布包含有 7B、13B 的 Base 和 Chat 版本，并提供了 Chat 版本的 4bits 量化。

Baichuan-7B

Github 代码：GitHub - baichuan-inc/Baichuan-7B: A large-scale 7B pretraining language model developed by BaiChuan-Inc.

Baichuan-13B

介绍：Baichuan-13B是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型，在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。Baichuan-13B 有如下几个特点：

更大尺寸、更多数据：Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿，并且在高质量的语料上训练了 1.4 万亿 tokens，超过 LLaMA-13B 40%，是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语，使用 ALiBi 位置编码，上下文窗口长度为 4096。

baichuan-inc/Baichuan-13B：