论文地址:
https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
Llama 3模型群
1. 引言
基础模型:现代人工智能系统依赖于基础模型,这些模型设计用于支持多种AI任务。
Llama 3:本文介绍了Llama 3模型族,支持多语言、编码、推理和工具使用。最大模型有405B参数,上下文窗口达128K tokens。
发布:Llama 3模型包括预训练和后训练版本,以及用于输入输出安全的Llama Guard 3模型。
- 总体概述
模型架构:Llama 3采用标准密集Transformer架构,进行了一些小的修改。
训练阶段:包括语言模型预训练和后训练两个主要阶段。
多模态扩展:正在进行图像、视频和语音能力的整合,但尚未广泛发布。
3. 预训练
数据准备 从多种数据源创建训练语料库,应用去重和数据清洗机制,去除包含个人身份信息和成人内容的域:
数据去重:在URL、文档和行级别进行去重。
质量过滤:使用模型分类器进一步筛选高质量token。
代码和推理数据:构建特定领域的管道提取代码和数学相关的网页。
多语言数据:处理多语言文本,应用语言特定的过滤器和模型分类器。
数据混合 通过知识分类和缩放律实验确定数据混合比例,最终数据混合包含约50%的通用知识、25%的数学和推理数据、17%的代码数据和8%的多语言数据:
知识分类:开发分类器确定数据混合比例。
缩放律实验:通过训练小模型预测大模型性能,确定最佳数据混合。缩放律公式:
其中 α=0.53,A=0.29
模型架构 Llama 3使用标准密集Transformer架构,进行了一些小的修改,如使用分组查询注意力(GQA)和更大的词汇表:
架构修改:使用分组查询注意力(GQA)、更大的词汇表和更高的RoPE基础频率参数。
缩放律:通过实验确定最佳模型大小和训练token数量,最终决定训练405B参数的旗舰模型。
基础设施和效率:
训练基础设施优化措施:迁移到Meta的生产集群,优化训练效率。
4. 后训练
后训练阶段 包括监督微调(SFT)和直接偏好优化(DPO),以使模型遵循指令、对齐人类偏好并改进特定能力:
监督微调(SFT):在指令调优数据上进行监督微调。
直接偏好优化(DPO):通过直接偏好优化对齐人类偏好。
安全缓解:在后训练阶段整合安全措施。
5. 多模态扩展
多模态编码器预训练:训练图像和语音编码器,分别使用图像-文本对和自监督方法。
视觉适配器训练:训练适配器将预训练的图像编码器集成到语言模型中,并训练视频适配器。
语音适配器训练:将语音编码器集成到模型中,并进行监督微调以实现高质量语音理解。
6. 结论
发布计划:Llama 3模型将在更新版本的Llama 3社区许可下公开发布,包括预训练和后训练版本的405B参数语言模型和新的Llama Guard模型。
未来工作:正在进行多模态扩展,但尚未准备好发布。