Engineering flexible machine learning systems by traversing functionally-invariant paths

本文是LLM系列文章,针对《Engineering flexible machine learning systems by traversing functionally-invariant paths》的翻译。

摘要

Transformer已经成为用于自然语言处理和计算机视觉的最先进的神经网络架构。在基础模型范式中,大型Transformer模型(BERT、GPT3/4、Bloom、ViT)在单词或图像屏蔽等自我监督任务上进行预训练,然后通过对下游用户应用程序(包括指令跟随和问答)的微调进行调整。虽然已经开发了许多模型微调方法,包括低秩权重更新策略(如LoRA),但对实现网络自适应而不损失知识的基本数学原理仍知之甚少。在这里,我们介绍了一种差分几何框架,即函数不变路径(FIP),它为一系列机器学习目标和网络稀疏化目标提供了灵活和连续的神经网络自适应。我们将神经网络的权重空间概念化为配备有度量张量的弯曲黎曼流形,该度量张量的谱定义了权重空间中的低秩子空间,该子空间在不损失先验知识的情况下适应网络自适应。我们将自适应形式化为在权重空间中沿着测地线路径的运动,同时搜索适应次要目标的网络。凭借适度的计算资源,FIP算法在语言模型(BERT)、视觉Transformer(ViT、DeIT)和细胞神经网络的连续学习和稀疏化任务上实现了与最先进的性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值