本文是LLM系列文章,针对《MULTI-TASK INFERENCE: Can Large Language Models Follow Multiple Instructions at Once?》的翻译。
摘要
大型语言模型(LLM)通常被提示在每次推理调用中遵循一条指令。在这项工作中,我们分析LLM是否也具有同时处理多个指令的能力,称为多任务推理。为此,我们引入了MTI BENCH(多任务推理基准),这是一个全面的评估基准,包括25个任务中的5000个实例。MTI BENCH中的每个任务都包含2到3个子任务。正如预期的那样,我们首先证明了多任务推理平均将总推理时间减少了×1.46倍,因为它不需要多次推理调用。有趣的是,与LLM在划分任务时表现更好的预期相反,我们发现,与MTI工作台上的单任务推理相比,LLMA-2-CHAT-70B和GPT-4等最先进的LLM在多任务推理中的性能分别提高了7.3%和12.4%。我们在这个链接上发布了MTI BENCH数据集和我们的代码。