本文是LLM系列文章,针对《xLSTM: Extended Long Short-Term Memory》的翻译。
摘要
在20世纪90年代,恒定误差转盘和门控被引入作为长短期记忆(LSTM)的核心思想。从那时起,LSTM经受住了时间的考验,并为众多深度学习成功案例做出了贡献,特别是它们构成了第一个大型语言模型(LLMs)。然而,以并行化自我关注为核心的Transformer技术的出现标志着一个新时代的到来,在规模上超过了LSTM。我们现在提出一个简单的问题:当利用现代LLM的最新技术,将LSTM扩展到数十亿个参数,同时减轻LSTM的已知局限性时,我们在语言建模方面能走多远?首先,我们介绍了具有适当归一化和稳定技术的指数门控。其次,我们修改了LSTM存储器结构,得到:(i)具有标量存储器、标量更新和新存储器混合的sLSTM,(ii)具有矩阵存储器和协方差更新规则的完全并行的mLSTM。将这些LSTM扩展集成到残差块主干中会产生xLSTM块,然后将其残差堆叠到xLSTM架构中。与最先进的Transformer和状态空间模型相比,指数门控和修改后的存储结构提高了xLSTM的性能,在性能和扩展方面都表现良好。