本文是LLM系列文章,针对《CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels》的翻译。
摘要
大型语言模型(LLMs)在各种长上下文任务中得到了很好的研究。然而,高质量的长上下文摘要数据集的稀缺阻碍了这一领域的进一步发展。为了解决这个问题,我们引入了CNNSum,这是一个基于中国小说的多尺度长上下文摘要基准,以人为驱动的注释为特征,由四个子集组成,共695个样本,长度从16k到128k不等。我们评估了许多LLM并进行了详细的案例分析。此外,我们进行了广泛的微调实验,以探索和改进长上下文摘要。在我们的研究中:(1)像GPT-4o这样的高级LLM仍然可能产生主观评论,导致模糊的总结。(2) 目前,长上下文摘要主要依赖于较长上下文长度所提供的记忆能力。大型LLM的优点很难利用,因此小型LLM是最具成本效益的。(3) 不同的提示模板与不同的版本模型配对可能会导致较大的性能差距。在进一步的微调中,这些问题可以得到缓解,基础版本模型的性能会更好。(4) 具有RoPE基准规模的LLM具有很强的外推潜力;使用短上下文数据可以显著提高长上下文摘要的性能。然而,进一步应用其他