简介
具有针对性的单模态学习目标的多模态学习方法在缓解多模态学习不平衡问题方面表现出了卓越的功效。然而,之前被忽视的多模态和单模态学习目标之间的梯度冲突,这可能会误导单模态编码器优化。为了很好地减少这些冲突,作者观察了多模态损失和单模态损失之间的差异,其中更容易学习的多模态损失的梯度幅度和协方差都小于单模态损失。利用这一特性,文中分析了多模态场景下的 Pareto 积分,并提出了 MMPareto 算法,该算法可以确保最终梯度的方向对所有学习目标都是通用的,并增强幅度以提高泛化能力,从而提供单模态辅助。
研究动机
多模态学习过程中存在模态不均衡问题,即大多数多模态模型不能很好地联合利用所有模态,对每种模态的利用不平衡。此外,在多任务场景下,模型优化中存在先前被忽视的风险,这也可能会限制模型的能力。不可否认,单模态学习目标有效地增强了相应模态的学习。同时,单模态编码器参数的优化受到多模态联合学习目标和自身单模态学习目标的影响。这需要同时最小化两个学习目标,但通常不存在一组可以满足该目标的参数。因此,这些多模态和单模态学习目标在优化过程中可能会发生冲突。在图 1a 中,以广泛使用的 Kinetics Sounds 数据集上的视频编码器为例。可看出负余弦相似度表明多模态和单模态梯度在优化过程中确实存在方向冲突。特别是,早期训练阶段的这些冲突可能会严重损害模型能力,从而导致主要的多模态学习可能会受到干扰。
论文贡献
(1)提出了多模态帕累托(MMPareto)算法,该算法在梯度积分时分别考虑方向和大小。它确保了无害的单模态辅助,其中最终梯度的方向是所有学习目标的共同方向,并增强了泛化能力。
(2)对该方法的收敛性进行了分析。基于多种类型数据集的结果,该方法有效缓解了不平衡的多模态学习问题,并且可以很好地配备具有密集跨模态交互的模型,例如多模态 Transformers 。单模态性能甚至优于单独训练的单模态模型,这是以前很少实现的。
(3)验证了所提出的方法还可以扩展到任务难度存在明显差异的多任务情况,表明其可扩展性。
MMPareto方法
类似多任务的多模态框架
在多模态学习中,模型有望通过整合多种模态的信息来产生正确的预测。因此,经常存在多模态联合损失,需要融合多模态特征进行预测。然而,仅利用这种联合损失来一起优化所有模态可能会导致优化过程由一种模态主导,而导致其他模态严重优化不足。为了克服这种不平衡的多模态学习问题,引入针对每种模态优化的单模态损失被广泛使用,并被证明可以有效缓解这种不平衡的多模态学习问题。在这些场景中,损失函数为:
其中 是多模态联合损失, 是模态 k 的单模态损失。n 是模态的数量。我们主要考虑多模态判别任务,并且所有损失都是交叉熵损失函数。这种类似多任务的多模态框架如图 2 的左侧部分所示。
SGD 属性和假设
多模态框架同时具有多模态损失函数和单模态损失函数。对于,模态k的单模态编码器参数、迭代t处的和的梯度满足:
其中和是批次采样协方差。在多模态情况下,单模态损失仅接收基于相应模态数据的预测。相比之下,多模态损失通过来自所有模态数据的更充分信息进行