本文是LLM系列文章,针对《Evaluating and Optimizing Educational Content with Large Language Model Judgments》的翻译。
摘要
创建有效的教育材料通常需要对学生的学习结果进行昂贵而耗时的研究。为了克服这一障碍,一个想法是建立学生学习的计算模型,并使用它们来优化教学材料。然而,很难对学习动态的认知过程进行建模。我们提出了一种替代方法,使用语言模型作为教育专家来评估各种指令对学习结果的影响。具体而言,我们使用GPT-3.5来评估教学材料对不同学生群体的总体影响,并发现它可以复制公认的教育发现,如专业知识逆转效应和变异性效应。这表明了LMs作为教育内容可靠评估者的潜力。基于这一见解,我们引入了一种指令优化方法,其中一个LM使用另一个LM的判断作为奖励函数来生成指令材料。我们将这种方法应用于创建数学单词问题工作表,旨在最大限度地提高学生的学习收益。人类教师对LM生成的工作表的评估显示,LM判断与人类教师偏好之间存在显著一致性。最后,我们讨论了人类和LM观点之间的潜在分歧,以及自动化指令设计的陷阱。