本文是LLM系列文章,针对《Engineering flexible machine learning systems by traversing functionally-invariant paths》的翻译。
通过遍历函数不变路径设计柔性机器学习系统
摘要
Transformer已经成为用于自然语言处理和计算机视觉的最先进的神经网络架构。在基础模型范式中,大型Transformer模型(BERT、GPT3/4、Bloom、ViT)在单词或图像屏蔽等自我监督任务上进行预训练,然后通过对下游用户应用程序(包括指令跟随和问答)的微调进行调整。虽然已经开发了许多模型微调方法,包括低秩权重更新策略(如LoRA),但对实现网络自适应而不损失知识的基本数学原理仍知之甚少。在这里,我们介绍了一种差分几何框架,即函数不变路径(FIP),它为一系列机器学习目标和网络稀疏化目标提供了灵活和连续的神经网络自适应。我们将神经网络的权重空间概念化为配备有度量张量的弯曲黎曼流形,该度量张量的谱定义了权重空间中的低秩子空间,该子空间在不损失先验知识的情况下适应网络自适应。我们将自适应形式化为在权重空间中沿着测地线路径的运动,同时搜索适应次要目标的网络。凭借适度的计算资源,FIP算法在语言模型(BERT)、视觉Transformer(ViT、DeIT)和细胞神经网络的连续学习和稀疏化任务上实现了与最先进的性