本文是LLM系列文章,针对《Derivative-Free Optimization for Low-Rank Adaptation in Large Language Models》的翻译。
摘要
诸如LoRA之类的参数有效调整方法可以通过调整一小部分参数来实现与模型调整相当的性能。然而,仍然需要大量的计算资源,因为这个过程涉及计算梯度和在整个模型中执行反向传播。最近,人们致力于利用无导数优化方法来避免梯度的计算,并在小样本设置中展示增强的鲁棒性。在本文中,我们将低阶模块预先设置到模型的每个自注意层中,并使用两种无导数优化方法在每一层交替优化这些低阶模块。在各种任务和语言模型上的广泛结果表明,与现有的基于梯度的参数有效调整和无导数优化方法相比,我们提出的方法在内存使用和收敛速度方面取得了显著的改进,并表现出明显的优势。
1 引言
2 前言
3 方法
4 实验
5 分析
6 相关工作
7 结论
在这项工作中,我们介绍了一种新的方法,以无导数的方式优化大型语言模型中的低阶模块。该方法包括将低秩模块集成到模型的每