大型语言模型(LLMs)微调(Fine-tuning)优化研究! |
文章目录
一. 摘要
- 微调大语言模型是用户用于特定应用的常见选择。然而,微调这些模型是一项艰巨的任务,因为用户必须考虑 资源预算、运行时间、模型大小和上下文长度 等多个因素。一个主要的挑战是微调对内存需求很高,限制了所需硬件内存和可以处理的训练数据上下文长度。在这项工作中,我们对各种微调优化方案进行了详细研究并分享了结果。特别是,我们评估了 梯度检查点(Gradient Checkpointing)、低秩适配(Low Rank Adaptation)、DeepSpeed的零冗余优化器(ZeRO Redundancy Optimizer)和