前言:春节前的热闹还在延续,各大厂商你方唱完我登场,新技术新应用层出不穷,大模型整个趋势看起来欣欣向荣。但向好的背后仍存在一个一直未停止的问题“数据枯竭”。
添加图片注释,不超过 140 字(可选)
Nicola Jones 在 Nature 上抛出问题“人工智能革命的数据即将耗尽。研究人员能做什么?”。
由此可见,“数据挖金”这个命题仍是行业主流,同样创建高质量的评测数据也是我们社区一直在深度研究的课题。
添加图片注释,不超过 140 字(可选)
基于以上内容,此次我们的探讨话题将围绕“数据是否真的面临枯竭”、“高质量数据的选择方法”以及“还有可能的解法是什么”展开,这个命题很大,我们很难得出一个准确和清晰的路径,但也借此抛砖引玉,给大家一些思考方向。
添加图片注释,不超过 140 字(可选)
关于数据枯竭的话题,并非空穴来风。自 2020 年以来,用于训练大语言模型的数据增长了 100 倍,每年翻倍,而互联网可用内容的增长速度却远低于此。这种供需失衡预示着 AI 发展即将面临“化石燃料”危机。
Pablo Villalobos 在论文中提到,用于训练 LLM 的人工生成公开文本的有效存量和数据集大小的预测。存量和数据集大小预测线的交点表示如果当前的 LLM 发展趋势继续下去,预计存量将在中位数年份(2028 年)得到充分利用。
添加图片注释,不超过 140 字(可选)
此时,模型将在接近索引网络中文本总有效存量的数据集大小上进行训练:大约 4e14 个 token,对应于未过拟合模型的训练计算量约为 5e28 FLOP。单独的点代表特定显著模型的数据集大小。
添加图片注释,不超过 140 字(可选)
论文查看:https://arxiv.org/pdf/2211.04325
与此同时,内容提供商也在加强数据保护,禁止 AI 公司抓取其数据用于训练。麻省理工学院 AI 研究员 Shayne Longpre 的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,高质量网络内容的封锁比例显著上升。此外,《纽约时报》等媒体对 OpenAI 和微软提起的侵权诉讼,也加剧了 AI 开发者获取数据的难度。
数据的生产还是来自于人的创造,人的思想和灵感仍然存在,数据并不会枯竭,只是变得越来越难开采;而且好的数据也很难复刻,挖掘新的“数据金矿”也并非易事。面对这些挑战,如何解是大家都在研究的,可能没办法现在给大家一个明晰的路径,但也抛出一些问题路径,给到思考。
添加图片注释,不超过 140 字(可选)
首先,在提供解法前,需要对数据在模型训练中的作用有一定的认知,以及在这其中好的数据的选择方法及内容是什么样子?
需要明确的一点是,数据就是模型训练的基石。简单来说完成大语言模型训练需要使用庞大且不断增长的文本数据集进行无监督预训练。这些文本主要来源于网络或精选语料库最大的人类生成的公共文本数据集,如 RefinedWeb、C4 和 RedPajama,包含从数十亿个网页收集的数十万亿个单词。
但数据不是直接从网上爬了很多数据就可以拿来训练的,需要对数据进行选择,确定将哪些候选数据点纳入训练数据集以及如何从选定的数据点中适当采样。
但数据如何选择、改造的研究方法是一个非常庞大和持续的工作。精准有效的数据集其实很难有组织会公开分享,现在公开可见的只有大概的框架和路径。在以下论文中做了相对详细的讲解。
添加图片注释,不超过 140 字(可选)
点击查看论文https://openreview.net/pdf?id=XfHWcNTSHp
这个 Part 将围绕 LLM 的训练数据集的选择展开,好的数据选择方法可以降低成本,确保评估指标的完整性,并减少不良行为。同时每个阶段的训练目标不同,数据选择的目标也不同。根据阶段性来看,数据的选择主要为五个目标:提高模型性能、提高数据效率、高效选择数据、确保评估完整性以及降低模型偏差。
下图是 LLM 训练数据的一个流程线。该过程从原始数据开始,通过数据选择过程对其进行清理、过滤和混合以创建最终数据集,然后用于训练(或评估)模型。
添加图片注释,不超过 140 字(可选)
首先模型训练的第一环节“预训练”( Pretraining),这个阶段的目标通常是训练一个“通用”模型,这需要对海量文本进行训练(对于大型语言模型,通常是数万亿个标记)。
插一个题外话,前 OpenAI 联合创始人 Ilya Sutskever 在 NeurIPS 2024 大会上所指出的,“Pre-training as we know it will end”,预训练时代是否结束还难说。
添加图片注释,不超过 140 字(可选)
因为预训练语料库规模非常庞大,从如此大量的数据中选择最佳数据可能非常昂贵。
因此该过程中常见的第一步是使用各种过滤器删除数据,并且通常会应用多个过滤器,这些过滤器通过流水线传输以获得所需的数据集,通过一系列过滤手段后保留的被视为“高质量”数据。
大概的过滤步骤如下,后面简单说一下语言过滤和一些过滤的约束,其他就不展开讨论了。
添加图片注释,不超过 140 字(可选)
第一,语言过滤。在为语言模型预训练整理数据时,至关重要的一步是考虑模型将使用的语言,并过滤掉不属于这些语言的数据。这不仅适用于自然语言,也适用于编码语言,但是,确定每种语言的方法在实践中有所不同。
大概的数据过滤路径如下,但结合实际情况,不一定都会遵循下面的流程顺序,但可做参考。
添加图片注释,不超过 140 字(可选)
第二,过滤约束。在面临来自互联网的大量原始文本数据,会发现数据中会包含很多的套话文本、错误消息和攻击性文本,因此删除此类不良文本非常重要。但涉及的语料库规模庞大,必须高效完成。
在这种情况下,过滤数据的常用方法涉及简单且计算效率高的启发式方法。启发式方法的目标是在某些维度(例如,句子长度、重复性)上约束训练分布,并假设评估分布将表现出类似的特征。
过去的作品中使用的启发式方法数量繁多,但通常属于以下启发式方法类别之一:项目计数、重复计数、存在、比率或统计。下表可作为启发式方法的概述。
添加图片注释,不超过 140 字(可选)
通过预训练后,模型已经获得基本的语言能力,接下来会进行指令调整和多任务训练。
相关定义如下:
-
指令调整:是在模型(指令,输出)对上进行训练,其中指令表示人类对模型的指令,输出是期望输出或期望输出的示例;目标是鼓励模型以更可控、对用户更有帮助的方式生成输出。
-
多任务训练:是一种在各种监督任务上训练模型的方法,目标是执行所有训练任务并可能推广到看不见的任务。
在这个阶段,数据更侧重于收集更多种类的数据。为了使已有数据多样化,可以使用数据增强技术,例如翻译、输入反转和反面例子、已成功用于进一步丰富数据种类;还可通过以多种提示格式模板化数据来增加数据多样性,包括零样本、少样本和思路链提示 。
随着模型规模的扩大和模型容量的相应提高,分布多样化已被证明是一种提高模型泛化能力的有效方法。
添加图片注释,不超过 140 字(可选)
之后就是进行偏好微调 (PreFT),通常数据需要遵循生成模型训练流程中的指令调整。
在这个阶段涉及将人类偏好融入模型行为,包括从人类反馈中进行强化学习 (RLHF)、从人工智能反馈中进行强化学习 (RLAIF) 和直接偏好优化 (DPO)。
不同的方式下数据选择的侧重点如下:
-
RLHF 和 RLAIF 方法:包括独立训练奖励模型的重要步骤,以便在训练期间主动选择或加权样本。 奖励模型是一个单独的模型,经过微调以接受任何输入(例如文本),并输出标量奖励,指示效用(以文本被选择的概率表示)。数据选择方法可以通过训练奖励模型或下游策略来应用,但直接偏好优化 (DPO)方法除外。
-
PreFT :通常侧重于从模型中获取有关特定功能和评估的信号。在这种情况下,数据选择的主要方法是手动过滤、基于模型的评估和奖励模型重新加权(例如,拒绝抽样),重点关注三个点复杂性、质量和多样性。
一些数据集的例子:
-
Ethayarajh 等在创建斯坦福人类偏好 (SHP)数据集时,根据评论链中收到的评论和帖子的投票数过滤 Reddit 数据。
-
Bai 等人和 Lambert 等人在创建各自的数据集时,根据用户最低参与度衡量数据点。
-
UltraFeedback 是一个流行的数据集,用于训练最先进的聊天模型,如 Zephyr-β 和 Tulu 2 , 实施多方面过滤过程,以创建以指令遵循、帮助性、真实性和诚实为重点的偏好数据集。
添加图片注释,不超过 140 字(可选)
接下来是上下文学习 (ICL),这个是语言模型中广泛使用的提示范式。它不用微调模型,而是给出一些演示示例作为提示,以指导语言模型对输入查询执行类似的预测任务。从一组固定的演示中选择最佳顺序,从大量标记数据中进行选择,或策略性地注释一小组未标记数据。
添加图片注释,不超过 140 字(可选)
然后是针对特定任务的微调,这个是一种与预训练、指令调整或 RLHF 截然不同的学习设置,但适用的数据选择方法并没有太大不同。在某些方面,为特定目标任务选择数据可能比以前的设置更容易。
针对特定任务的微调的数据选择可以粗略地分为两种。
-
第一种设置的目标是特定任务,在数据有限的情况下尤其有益,例如小样本学习 。例如,目标任务(我们希望模型执行的任务)的数据可能非常少,但我们可以利用各种各样、大量的辅助数据。
-
第二种设置的目标是使数据分布多样化,其目标是提高数据效率 ,或者提高模型的稳健性 。
添加图片注释,不超过 140 字(可选)
综上,在不同阶段对数据的要求都各不相同,同样每个阶段的模型训练都离不开数据。
一部分数据依赖于外部的公开数据,在此基础上进行清洗、筛选、加工,
另一部分基于目标数据进行人工构造,同时模型训练对人类文本数据的需求会继续增长,数据量级和质量要求的压力不可忽视。
添加图片注释,不超过 140 字(可选)
从宏观的训练上来说,可以从下面几个方面入手:
-
缩小规模:缩小当前数据集的大小和模型。Kaddour 证明,使用少 745 倍的数据来训练模型是可能的,在 GLUE 上的性能损失仅为 1.9% 。小模型的结果是否可以扩展到更大的模型,或者是否有任何方法可以根据小模型的实验来预测大模型的结果。
-
开发直接评估数据的指标:有许多指标可以直接测量数据的内在特征,包括距离、密度、多样性、趋势(平均值、中位数、众数)和关联(相关性、互信息),但这些指标尚未与模型对下游数据的性能联系起来,开发直接评估数据的指标可以显著减少方法开发所花费的时间。
-
以数据为中心的基准:许多数据选择都是在收集新数据集的过程中进行的,这使得无法将选择方法与另一个数据集进行比较,因为它们可能包含不同数量的数据,有时甚至使用不同的模型架构和大小。如果有针对数据选择的基准可减少数据开发,但这个研究存在很大挑战。
-
开源工具和最佳实践:随着该领域的开放发展,新的规则和最佳实践将会出现。开源实施这些最佳实践的工具至关重要,结合这些开源的工具和已有的实践可以显著减少开始数据研究所需的开销。
以上更多是训练时的一些调整,关于数据的开采,需要换个思考方式。
OpenAI 的首席执行官萨姆·阿尔特曼(Sam Altman)曾表示,AI 模型最终应该能够生成足够高质量的合成数据,以有效地自我训练。
llya 也列出了几项可能的方案,比如 Agents,合成数据+以及 OpenAl +的 O1(增加推理时间)。
同样在 Pablo Villalobos 的研究中,也提到了一定的解决方法,如合成数据生成、从数据丰富的领域进行迁移学习以及使用非公开数据。
结合相关的信息数据的来源可以从下面几个方面入手:
-
收集非公开数据:例如WhatsApp消息、YouTube视频的文字记录等。Meta就曾表示他们使用虚拟现实耳机 Meta Quest 收集的数据来训练AI。然而,这些非公开数据大多质量较低或重复,且总量有限,只能暂时缓解数据不足的困境。 在字节跳动新发布的豆包 1.5 Pro 时,也提供一个一个新的视角,基于用户反馈的数据飞轮。豆包大模型是基于豆包产品的大规模用户反馈,实现了以用户数据飞轮持续提升模型能力的优化系统,确保数据来源的循环性。
添加图片注释,不超过 140 字(可选)
-
利用专业数据集:例如天文学、基因组数据等。斯坦福大学 AI 研究员 Fei-Fei Li 认为,健康护理、环境、教育等领域蕴藏着丰富的未被开发的数据。然而,这些专业数据集是否适合训练通用大语言模型还有待验证。
-
合成数据: 通过AI生成数据来训练AI。OpenAI每天生成的单词量已经与当前的AI训练数据集规模相当。合成数据在规则明确的领域,如国际象棋、数学、计算机编码等表现良好,在医疗等真实数据有限或敏感的领域也有应用前景。然而,合成数据也存在缺陷,例如递归循环可能加剧错误,降低模型学习质量,甚至导致“模型自噬障碍(Model Autophagy Disorder)”。
同时涉及到数据挖掘,更多还需要人工的配合,要拿到高质量的人类数据,难点是怎么去 Scale 人。
关于Human Generated Data,和公司的管理问题一样, Scale 人永远比 Scale 机器难度高很多,因为人类的工作产出会受到很多因素的影响。
添加图片注释,不超过 140 字(可选)
随着模型的能力越来越强,我们需要更高质量的数据,包括理解更长的指令,输出高质量的长文本。如果是逻辑推理或者数学的问题,评估回答正确与否本身就很难,这需要受教育程度高的人类去做评估。
需要从下面这些维度去推导:
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
以上内容只给到一些方向和思路,每个环节深入研究的内容都是一些更长远的课题,需要花费更多人力和时间探索。下期我们可以从某个视角切入,一起来聊聊~
同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性,发现更多不一样的视角,提出问题才有机会解决问题。
参考来源:
-
https://arxiv.org/html/2211.04325
-
https://arxiv.org/html/2402.16827v3
-
https://web.okjike.com/originalPost/67937424887087ba04c8e600
-
https://www.zhihu.com/people/randxie/posts
-
https://cloud.tencent.com/developer/article/2263070
-
http://www.cb.com.cn/index/show/bzyc/cv/cv135242081648
-
https://www.sohu.com/a/848596844_122118475
-
https://www.zhihu.com/question/7083094886
-
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Wm4kwekwy
-
https://zhuanlan.zhihu.com/p/684322452
-
https://mp.weixin.qq.com/s/S04CAZHlGkpgisFySiDKaQ
-
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Wm4kwekwy
-
https://lilianweng.github.io/posts/2024-02-05-human-data-quality/
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)