本文是LLM系列文章,针对《The What, Why, and How of Context Length Extension Techniques in Large Language Models – A Detailed Survey》的翻译。
大型语言模型中上下文长度扩展技术的内容、原因和方式——一项详细的调查
摘要
大型语言模型(LLM)的出现代表了自然语言处理(NLP)的一个显著突破,有助于在文本理解和生成方面取得实质性进展。然而,在这些进步中,值得注意的是,LLM在上下文长度外推方面经常面临限制。理解和扩展LLM的上下文长度对于提高其在各种NLP应用程序中的性能至关重要。在这篇调查论文中,我们深入探讨了为什么它是必不可少的多方面问题,以及高级技术可能给NLP应用带来的潜在转变。我们研究了与延长上下文长度相关的固有挑战,并对研究人员使用的现有策略进行了有组织的概述。此外,我们还讨论了评估上下文扩展技术的复杂性,并强调了研究人员在该领域面临的公开挑战。此外,我们还探讨了研究界是否就评估标准达成共识,并确定了需要进一步达成一致的领域。这项全面的调查旨在为研究人员提供宝贵的资源,指导他们了解上下文长度扩展技术的细微差别,并促进对这一不断发展的领域未来进展的讨论。
1 引言
“对我来说,尚习文是关键——由此产生对一切的理解”——肯尼斯·诺兰
大型语言模型(LLM)