这篇文章做的是VQA。同时,这篇文章集成了基于attention的多模态融合方法和基于双线性池化的多模态融合方法,为做VQA等多模态任务提供了很好的思路。
模型比较简单,但高效。
简单之处在于模型的组件都在之前的博客中学习过,没有新的结构之类的。高效之处在于集成了基于attention的多模态融合方法和基于双线性池化的多模态融合方法。
基于attention的多模态融合方法可以参考以下几篇博客:
【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记
【多模态】《Where To Look: Focus Regions for Visual Question
Answering》论文阅读笔记
【多模态】《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文阅读笔记
【多模态】《Visual7W: Grounded Question Answering in
Image