
LLM for education
文章平均质量分 68
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
FRONTIERMATH: A BENCHMARK FOR EVALUATING ADVANCED MATHEMATICAL REASONING IN AI
我们介绍FrontierMath,这是一个由专家数学家精心设计和审查的数百个原创、极具挑战性的数学问题的基准。这些问题涵盖了现代数学的大多数主要分支——从数论和实分析中的计算密集型问题到代数几何和范畴论中的抽象问题。解决一个典型的问题需要相关数学分支的研究人员花费数小时的努力,而对于高端问题,则需要数天的时间。FrontierMath使用新的、未发表的问题和自动验证来可靠地评估模型,同时最大限度地降低数据污染的风险。目前最先进的人工智能模型解决了不到2%的问题,揭示了人工智能能力与数学界实力之间的巨大差距。原创 2024-12-01 10:00:00 · 233 阅读 · 0 评论 -
Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Mode
多项选择题(MCQ)在几乎所有级别的教育中都无处不在,因为它们易于管理、评分,并且是评估和实践中可靠的格式。MCQ最重要的方面之一是干扰因素,即旨在针对真实学生常见错误或误解的不正确选项。迄今为止,对于教师和学习内容设计师来说,制作高质量的干扰物的任务在很大程度上仍然是一个劳动和时间密集型的过程,其可扩展性有限。在这项工作中,我们研究了数学MCQ领域的自动干扰物生成任务,并探索了从上下文学习到微调的各种基于大型语言模型(LLM)的方法。原创 2024-08-28 09:13:44 · 177 阅读 · 0 评论 -
Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks
自然语言处理(NLP)系统领域的快速发展和大型语言模型(LLMs)的扩展为教育和教学方法领域开辟了众多机会。这些进步提供了定制学习体验和即时反馈的潜力,所有这些都是通过可访问且具有成本效益的服务提供的。这项技术进步的一个显著应用领域是解决数学问题。数学问题解决不仅需要破译复杂问题陈述的能力,还需要在问题解决过程的每一步都进行精确算术计算的技能。然而,对大型语言模型的算术能力的评估仍然是一个相对较少受到关注的领域。原创 2024-08-21 14:30:43 · 88 阅读 · 0 评论 -
LARGE LANGUAGE MODELS MEET USER INTERFACES: THE CASE OF PROVISIONING FEEDBACK
将生成人工智能(GenAI),特别是大型语言模型(LLMs)融入教育环境,为提高教育工作者的效率和丰富学生的学习体验提供了宝贵的机会。教育工作者目前使用LLM的很大一部分涉及使用会话用户界面(CUI),如聊天窗口,用于生成教育材料或向学习者提供反馈等功能。与LLM进行实时对话的能力,可以增强教育工作者在各个学科的领域知识,具有很高的价值。然而,它也对LLM的广泛、道德和有效采用提出了挑战。原创 2024-08-15 16:51:47 · 167 阅读 · 0 评论 -
Predicting Learning Performance with Large Language Models: A Study in Adult Literacy
智能辅导系统显著加强了成人识字培训,这是社会参与、就业机会和终身学习的关键因素。我们的研究调查了高级人工智能模型的应用,包括GPT-4等大型语言模型,用于预测ITS成人识字项目的学习成绩。这项研究的动机是LLM基于其固有的推理和计算能力预测学习性能的潜力。通过使用ITS、AutoTutor的阅读理解数据集,我们通过五倍交叉验证技术评估了GPT-4与传统机器学习方法在预测学习性能方面的预测能力。原创 2024-06-26 14:07:20 · 96 阅读 · 0 评论 -
Towards Modeling Learner Performance with Large Language Models
最近探索预训练的大型语言模型(LLM)能力的工作已经证明了它们通过完成代表一系列任务的复杂token序列来充当通用模式机的能力,包括时间序列预测和机器人控制。本文研究了LLM的模式识别和序列建模能力是否可以扩展到知识跟踪领域,知识跟踪是智能辅导系统(ITS)开发的关键组成部分,该系统通过预测学习者随时间的推移的表现来定制教育体验。在对多个现实世界数据集的实证评估中,我们比较了使用LLM执行此任务的两种方法,零样本提示和模型微调,以及现有的非LLM知识跟踪方法。原创 2024-06-26 11:18:50 · 74 阅读 · 0 评论 -
Large Language Model based Situational Dialogues for Second Language Learning
在第二语言学习中,基于情景的会话练习对于语言学习者实现口语流利性很重要,但学生往往缺乏足够的机会与合格的教师或母语人士一起练习会话技能。为了弥补这一差距,我们提出了情景对话模型,供学生进行对话练习。我们的情景对话模型在大型语言模型(LLM)的基础上进行了微调,目的是将开放式对话的引人入胜的性质与基于场景的任务的集中实践相结合。利用LLM的泛化能力,我们证明了我们的情景对话模型不仅在训练主题上有效,而且在训练中未遇到的主题上也有效。原创 2024-06-21 16:40:04 · 68 阅读 · 0 评论 -
Evaluating and Optimizing Educational Content with Large Language Model Judgments
创建有效的教育材料通常需要对学生的学习结果进行昂贵而耗时的研究。为了克服这一障碍,一个想法是建立学生学习的计算模型,并使用它们来优化教学材料。然而,很难对学习动态的认知过程进行建模。我们提出了一种替代方法,使用语言模型作为教育专家来评估各种指令对学习结果的影响。具体而言,我们使用GPT-3.5来评估教学材料对不同学生群体的总体影响,并发现它可以复制公认的教育发现,如专业知识逆转效应和变异性效应。这表明了LMs作为教育内容可靠评估者的潜力。原创 2024-06-20 14:59:39 · 129 阅读 · 0 评论 -
Large Language Models for Education: A Survey and Outlook
大型语言模型(LLM)的出现为教育领域带来了一个充满可能性的新时代。本调查文件从多方面总结了LLM在教育环境中的各种技术,包括学生和教师援助、适应性学习和商业工具。我们从各个角度系统地回顾了技术进步,组织了相关的数据集和基准,并确定了与LLM在教育中的部署相关的风险和挑战。此外,我们概述了未来的研究机会,强调了潜在的有前景的方向。我们的调查旨在为教育工作者、研究人员和政策制定者提供一个全面的技术图景,以利用LLM的力量来彻底改变教育实践,并促进更有效的个性化学习环境。原创 2024-06-16 11:50:47 · 229 阅读 · 0 评论 -
Evaluating the Application of Large Language Models to Generate Feedback in Programming Education
这项研究调查了大型语言模型,特别是GPT-4的应用,以加强编程教育。这项研究概述了一个web应用程序的设计,该应用程序使用GPT-4提供编程任务的反馈,而不泄露解决方案。为这项研究开发了一个用于处理编程任务的网络应用程序,并在一个学期内对51名学生进行了评估。结果表明,GPT-4生成的大多数反馈都有效地解决了代码错误。然而,错误建议和幻觉问题带来的挑战表明需要进一步改进。原创 2024-05-29 15:14:23 · 83 阅读 · 0 评论 -
Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
艺术欣赏对于培养学习者的批判性思维和情商至关重要。然而,传统的艺术欣赏教育往往受到阻碍,因为获得艺术资源的机会有限,尤其是弱势学生,以及主流教育对STEM科目的不平衡重视。为了应对这些挑战,最近的技术进步为创新解决方案铺平了道路。本研究探讨了多模态大语言模型(MLLMs)在艺术欣赏教育中的应用,重点是开发LLaVA Docent,一个利用这些进步的模型。我们的方法包括全面的文献综述和与该领域专家的协商,从而开发出一个强大的数据框架。利用这个框架,我们生成了一个虚拟对话数据集,GPT-4利用了这个数据集。原创 2024-03-20 16:55:18 · 69 阅读 · 0 评论 -
E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models
随着大型语言模型(LLM)的不断发展,许多LLM开始应用于中国K-12教育领域。LLM与教育的融合越来越紧密,但目前还没有针对中国K-12教育领域的LLM评估基准。因此,迫切需要一个全面的自然语言处理基准来准确评估中国K-12教育领域中各种LLM的能力。为了解决这一问题,我们引入了E-EVAL,这是第一个专门为中国K-12教育领域设计的综合评估基准。E-EVAL由4351道小学、中学和高中的多项选择题组成,涉及广泛的科目,包括语文、英语、政治、历史、道德、物理、化学、数学和地理。原创 2024-03-06 14:00:15 · 109 阅读 · 0 评论