
DPO
文章平均质量分 76
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
HelpSteer2: Open-source dataset for training top-performing reward models
高质量的偏好数据集对于训练奖励模型至关重要,该模型可以有效地指导大型语言模型(LLM)生成与人类偏好一致的高质量响应。随着LLM变得更强和更好地协调,需要更新许可的偏好数据集,如Open Assistant、HHRLHF和HelpSteer,以保持对奖励建模的有效性。从GPT-4等专有LLM中提取偏好数据的方法对模型提供商的商业使用有限制。为了提高生成的响应和属性标记质量,我们发布了HelpSteer2,这是一个许可的偏好数据集(CC-BY-4.0)。原创 2024-06-25 15:52:53 · 202 阅读 · 0 评论 -
CodeUltraFeedback An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences
评估大型语言模型(LLM)与用户定义的编码偏好的一致性是一项具有挑战性的工作,需要评估复杂的文本LLM的输出。由于依赖于自动化指标和静态分析工具,现有的基准无法评估用户指令和LLM输出中的细微差别,这突出了对大规模数据集和LLM偏好调整基准的需求。在本文中,我们介绍了CodeUltraFeedback,这是一个由10000条复杂指令组成的偏好数据集,用于通过人工智能反馈调整LLM并使其与编码偏好保持一致。原创 2024-06-24 10:00:49 · 139 阅读 · 0 评论