Abstract
使语言模型变得更大并不意味着它们本身就能更好地遵循用户的意图。模型的输出结果可能存在以下问题
- 不真实
- 有毒
- 对用户没有帮助
即这些模型没有和用户 “对齐”(aligned)
在给定的 Prompt 分布上,1.3B 的 InstructGPT 的输出比 175B GPT-3 的输出更好(尽管参数量相差 100 多倍)。
1 Introduction
语言建模的目标:predicting the next token on a webpage from the internet
期望的目标: follow the user’s instructions helpfully and safely (Radford et al., 2019; Brown et al., 2020; Fedus et al., 2021; Rae et al., 2021;