本文并非逐句翻译,添加个人理解与疑惑,如有需要,请自行阅读原文。
Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities
具有不确定缺失模态的情绪识别的缺失模态想象网络
发表在 ACL-IJCNLP 2021
数据集:IEMOCAP and MSPIMPROV
实验环境:单个Nvidia GTX 1080Ti
在以往的研究中,多模态融合已被证明可以提高情绪识别的性能。然而,在实际应用中,我们经常会遇到模态丢失的问题,而哪些模态会丢失是不确定的。这使得fixed多模态融合在这种情况下失效。
在这项工作中,提出了一个统一的模型,缺失情态想象网络(MMIN),以处理不确定的缺失情态问题。MMIN学习鲁棒联合多模态表示,在给定可用模态的情况下,可以预测任意缺失模态在不同缺失模态条件下的表示。
在两个基准数据集上的综合实验表明,统一的MMIN模型在不确定缺失模态测试条件和全模态理想测试条件下都显著提高了情绪识别性能。
1 Introduction
情态缺失问题是近年来研究较多的问题,现有的解决方法主要是基于学习联合多模态表示,实现所有情态信息的编码。Han等人(Han et al., 2019)提出了一种联合训练方法,该方法隐式融合了来自辅助模态的多模态信息,从而提高了单模态情感识别性能。最近在(Pham et al., 2019;Wang et al., 2020)通过将源模态转换为多个目标模态来学习联合多模态表示,从而提高了性能作为输入的源模态的。(如果有音频(a)、视觉(v)和文本(t)三种模态,则系统需要在6个缺失模态条件下训练6个模型{a}、{v}、{t}、{a,v}、{a,t}和{v,t},再加上在全模态数据下训练1个模型。)
然而,这些方法只能处理源模态输入到训练模型的场景。需要为不同的缺失模态情况构建不同的模型。此外,基于顺序翻译的模型需要翻译和生成视频、音频和文本,这些内容很难训练,特别是在训练样本有限的情况下(Li et al., 2018;Pham et al., 2019)。
Contributions:
1)为了提高情感识别系统在不确定缺失模态测试条件下的鲁棒性,提出了一种统一的缺失模态想象网络(MMIN)模型
2)基于成对多模态数据,采用级联残差自编码器(CRA)和循环一致性学习设计了一个cross-modality imagination,学习鲁棒联合多模态表示。
2 Related Work
多模态情感识别
以前的许多工作都集中在融合多模态信息以提高情感识别性能上。提出了基于时间注意的方法,利用注意机制基于帧级或词级时间序列选择性地融合不同的模态,如门控多模态单元(GMU) (Aguilar等,2019)、多模态对齐模型(MMAN) (Xu等,2019)和多模态注意机制(cLSTM-MMA) (Pan等,2020)。这些方法使用不同的单模态子网络对每个模态的上下文表征建模,然后使用多模态注意机制有选择地融合不同模态的表征。Liang等人(Liang et al., 2020)提出了一种半监督多模态(SSMM)情绪识别模型,该模型使用跨模态情绪分布匹配来利用未标记数据来学习鲁棒表示并实现最先进的性能。
模态缺失问题
现有的模态缺失问题的方法主要分为三类。
第一组的特点是数据增强方法,该方法随机删除输入以模拟缺失模态情况(Parthasarathy和Sundaram, 2020)。
第二组基于生成方法,在给定可用模态的情况下直接预测缺失模态(Li et al., 2018;Cai et al., 2018;Suo et al., 2019;Du等人,2018)。
第三组旨在学习可以包含这些模态相关信息的联合多模态表示(Aguilar等人,2019;Pham等人,2019;Han等人,2019;Wang et al., 2020)。
数据增强方法
Parthasarathy等人(Parthasarathy和Sundaram, 2020)提出了一种策略,在活动期间随机删除视觉输入在片段或帧水平上模拟真实世界的缺失模态场景进行视听多模态情感识别,提高了缺失模态条件下的识别性能。
生成方法
Tran et al. (Tran et al., 2017)提出级联残差自编码器(CRA),利用自编码器结构上的残差机制,可以获取损坏的数据并估计一个函数来很好地恢复不完整的数据。Cai等人(Cai et al., 2018)提出了一种编码器-解码器深度神经网络,在给定可用模态(磁共振成像,MRI)的情况下生成缺失模态(正电子发射断层扫描,PET),生成的PET可以提供补充信息,以提高对阿尔茨海默病的检测和跟踪。
学习联合多模态表示
Han等人(Han et al., 2019)提出了一种由两个特定模态编码器和一个共享分类器组成的联合训练模型,该模型将音频和视觉信息隐式融合为联合表示,提高了单模态情感识别的性能。Pham等人(Pham et al., 2019)提出了一种基于顺序翻译的模型来学习源模态和多个目标模态之间的联合表示。源模态编码器的隐向量作为联合表示,提高了源模态的情感识别性能。Wang et al. (Wang et al., 2020)遵循这种基于翻译的方法,提出了一种更高效的基于转换器的翻译模型,将文本特征转换为声学特征,将文本特征转换为视觉特征。此外,上述两种基于翻译的模型采用了前向翻译和后向翻译的训练策略,以确保联合表示能最大限度地保留所有模态的信息。
3 Method
给定一组视频片段S,我们使用x = (xa, xv, xt)来表示视频片段S∈S的原始多模态特征,其中xa, xv和xt分别表示声学,视觉和文本模态的原始特征。|S|表示集S中视频片段的个数。我们表示目标集Y = {yi}|S| i=1, yi∈{0,1,…, C},其中yi为视频的目标段si的情感类别和|C|是情感类别的数量。
&n