本文是LLM系列文章,针对《TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models》的翻译。
摘要
大型语言模型(LLM)和多模态大型语言模型已显示出出色的通用能力,甚至在法律、经济、交通和医学等许多专业领域都表现出了适应性。目前,已经提出了许多特定领域的基准测试来验证(M)LLM在特定领域中的性能。在各个领域中,交通运输在现代社会中发挥着至关重要的作用,因为它影响着数十亿人的经济、环境和生活质量。然而,目前尚不清楚LLM拥有多少交通知识,以及它们是否能够可靠地执行与交通相关的任务。为了解决这一差距,我们提出了TransportationGames,这是一个精心设计和全面的评估基准,用于评估交通领域的(M)LLM。通过综合考虑现实世界场景中的应用,并参考Bloom分类法中的前三个层次,我们测试了各种(M)LLM在记忆、理解和应用所选任务的运输知识方面的性能。实验结果表明,尽管一些模型在某些任务中表现良好,但总体上仍有很大的改进空间。我们希望TransportationGames的发布能够为未来的研究奠定