Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization

本文探讨了如何通过在会议摘要任务中使用多查询指令来减少对大型语言模型(LLM)推理端点的调用次数,从而降低成本。实验比较了GPT-4、PaLM-2等模型在单查询和多查询情况下的性能,发现多查询可以提高效率,但只有少数模型能按预期格式生成响应。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Query-OPT: Optimizing Inference of Large Language Models via
Multi Query Instructions in Meeting Summarization》的翻译。

Query OPT:基于多查询指令的大型语言模型会议摘要推理优化

摘要

这项工作的重点是基于查询的会议摘要任务,其中生成上下文摘要(会议记录)以响应特定查询。在此任务中使用大型语言模型(LLM)时,即使上下文保持不变,每个新查询也需要对LLM推理端点/API进行新调用。然而,对LLM推理端点的重复调用会显著增加在生产中使用它们的成本,使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题,在本文中,我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。在这方面,我们通过比较各种流行的LLM(GPT-4、PaLM-2、LLaMA-2、Mistral和FLAN-T5)在单查询和多查询设置中的性能进行了广泛的实验。我们观察到,虽然大多数LLM倾向于响应多查询指令,但几乎所有LLM(GPT-4除外),即使经过微调,也无法以所需的输出格式正确生成响应。我们得出的结论是,虽然多查询提示可以通过减少对会议摘要任务的推理端点/API的调用来优化推理成本,但这种以预期格式可靠生成响应的能力仅限于某些LLM。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值