一、概述
这篇文章做的任务是视觉问答。论文的创新点主要在于在使用问题的语义表示作为查询来搜索图像中与答案相关的区域的基础之上,开发了一个多层 SAN(Stacked Attention Networks),在其中多次查询图像以逐步推断答案。
模型的结构图如下:
SAN首先使用问题向量查询第一个视觉注意层中的图像向量,然后将问题向量和检索到的图像向量组合成一个细化的查询向量,在第二个注意层再次查询图像向量。 更高级别的注意力层给出了更清晰的注意力分布,专注于与答案更相关的区域。 最后,我们将来自最高注意力层的图像特征与最后一个查询向量相结合来预测答案。
二、Image Model
与之前的研究使用最后一个内积层的特征不同,我们从最后一个池化层中选择特征 fIf_IfI,它保留了原始图像的空间信息。 我们首先将图像重新缩放为 448 × 448 像素,然后从最后一个池化层中获取特征,因此其维度为 512×14×14,如图 2 所示。14 × 14 是区域数 在图像中,512 是每个区域的特征向量的维度。 因此,fI 中的每个特征向量对应于输入图像的 32×32 像素区域。 我们用 fi,i ∈ [0, 195] 表示每个图像区域的特征向量。
然后为了建模方便,我们使用单层感知器将每个特征向量转换为与问题向量具有相同维度的新向量: