Llama3.1论文解读

论文地址:

https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Llama 3模型群

1. 引言

基础模型:现代人工智能系统依赖于基础模型,这些模型设计用于支持多种AI任务。

Llama 3:本文介绍了Llama 3模型族,支持多语言、编码、推理和工具使用。最大模型有405B参数,上下文窗口达128K tokens。

发布:Llama 3模型包括预训练和后训练版本,以及用于输入输出安全的Llama Guard 3模型。

  1. 总体概述

模型架构:Llama 3采用标准密集Transformer架构,进行了一些小的修改。

训练阶段:包括语言模型预训练和后训练两个主要阶段。

多模态扩展:正在进行图像、视频和语音能力的整合,但尚未广泛发布。

3. 预训练

数据准备 从多种数据源创建训练语料库,应用去重和数据清洗机制,去除包含个人身份信息和成人内容的域:

  数据去重:在URL、文档和行级别进行去重。

  质量过滤:使用模型分类器进一步筛选高质量token。

  代码和推理数据:构建特定领域的管道提取代码和数学相关的网页。

  多语言数据:处理多语言文本,应用语言特定的过滤器和模型分类器。

数据混合 通过知识分类和缩放律实验确定数据混合比例,最终数据混合包含约50%的通用知识、25%的数学和推理数据、17%的代码数据和8%的多语言数据:

  知识分类:开发分类器确定数据混合比例。

  缩放律实验:通过训练小模型预测大模型性能,确定最佳数据混合。缩放律公式:

其中 α=0.53​,A=0.29

模型架构 Llama 3使用标准密集Transformer架构,进行了一些小的修改,如使用分组查询注意力(GQA)和更大的词汇表:

  架构修改:使用分组查询注意力(GQA)、更大的词汇表和更高的RoPE基础频率参数。

  缩放律:通过实验确定最佳模型大小和训练token数量,最终决定训练405B参数的旗舰模型。

基础设施和效率:

  训练基础设施优化措施:迁移到Meta的生产集群,优化训练效率。

4. 后训练

后训练阶段 包括监督微调(SFT)和直接偏好优化(DPO),以使模型遵循指令、对齐人类偏好并改进特定能力:

监督微调(SFT):在指令调优数据上进行监督微调。

直接偏好优化(DPO):通过直接偏好优化对齐人类偏好。

安全缓解:在后训练阶段整合安全措施。

5. 多模态扩展

多模态编码器预训练:训练图像和语音编码器,分别使用图像-文本对和自监督方法。

视觉适配器训练:训练适配器将预训练的图像编码器集成到语言模型中,并训练视频适配器。

语音适配器训练:将语音编码器集成到模型中,并进行监督微调以实现高质量语音理解。

6. 结论

发布计划:Llama 3模型将在更新版本的Llama 3社区许可下公开发布,包括预训练和后训练版本的405B参数语言模型和新的Llama Guard模型。

未来工作:正在进行多模态扩展,但尚未准备好发布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值