人类偏好对齐训练
背景
在当前人工智能语言模型的发展中,大型语言模型(LLMs)通过在大规模文本语料上的无监督预训练,获得了对语言结构和知识的深刻理解。这一阶段训练出的模型通常被称为“base model”。尽管此类模型具备较强的文本理解和生成能力,能够在多种语言任务中表现出连贯性和一定的逻辑性,但其在实际应用中仍存在若干显著局限:
一、输出质量与伦理问题
-
不良内容生成
base model 可能会生成包含偏见、虚假信息、歧视性或有害内容的文本。这种现象的根源在于训练数据本身的质量问题,而非模型设计缺陷。 -
难以遵循明确指令
尽管模型能够生成语法正确、结构完整的文本,但在理解并严格遵循用户指令、任务规范或特定风格要求方面表现不佳。例如,当用户要求生成符合某种伦理准则或特定格式的内容时,模型可能无法准确执行。
二、问题成因分析
-
数据偏差与噪声
- 来源广泛但缺乏筛选:预训练所使用的文本数据主要来自互联网,涵盖社交媒体、新闻、论坛、百科等多类来源。这些数据虽然丰富,但缺乏统一的质量控制和伦理审核机制,导致模型可能学习到其中的偏见和错误信息。
- 缺乏校验机制:由于数据量庞大,难以在训练前对每条