本文是LLM系列文章,针对《Query-OPT: Optimizing Inference of Large Language Models via
Multi Query Instructions in Meeting Summarization》的翻译。
摘要
这项工作的重点是基于查询的会议摘要任务,其中生成上下文摘要(会议记录)以响应特定查询。在此任务中使用大型语言模型(LLM)时,即使上下文保持不变,每个新查询也需要对LLM推理端点/API进行新调用。然而,对LLM推理端点的重复调用会显著增加在生产中使用它们的成本,使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题,在本文中,我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。在这方面,我们通过比较各种流行的LLM(GPT-4、PaLM-2、LLaMA-2、Mistral和FLAN-T5)在单查询和多查询设置中的性能进行了广泛的实验。我们观察到,虽然大多数LLM倾向于响应多查询指令,但几乎所有LLM(GPT-4除外),即使经过微调,也无法以所需的输出格式正确生成响应。我们得出的结论是,虽然多查询提示可以通过减少对会议摘要任务的推理端点/API的调用来优化推理成本,但这种以预期格式可靠生成响应的能力仅限于某些LLM。