TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models

828 篇文章

已下架不支持订阅

TransportationGames是一个评估大型和多模态语言模型在交通领域知识和应用能力的基准。研究发现,尽管部分模型在特定任务上表现出色,但整体仍有提升空间,且分析了影响模型性能的因素。该基准参照Bloom分类法,测试模型在记忆、理解和应用交通知识的任务中表现,旨在推动(M)LLM在交通领域的进步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models》的翻译。

TransportationGames:(多式联运)大语言模型的交通知识基准

摘要

大型语言模型(LLM)和多模态大型语言模型已显示出出色的通用能力,甚至在法律、经济、交通和医学等许多专业领域都表现出了适应性。目前,已经提出了许多特定领域的基准测试来验证(M)LLM在特定领域中的性能。在各个领域中,交通运输在现代社会中发挥着至关重要的作用,因为它影响着数十亿人的经济、环境和生活质量。然而,目前尚不清楚LLM拥有多少交通知识,以及它们是否能够可靠地执行与交通相关的任务。为了解决这一差距,我们提出了TransportationGames,这是一个精心设计和全面的评估基准,用于评估交通领域的(M)LLM。通过综合考虑现实世界场景中的应用,并参考Bloom分类法中的前三个层次,我们测试了各种(M)LLM在记忆、理解和应用所选任务的运输知识方面的性能。实验结果表明,尽管一些模型在某些任务中表现良好,但总体上仍有很大的改进空间。我们希望TransportationGames的发布能够为未来的研究奠定

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值