【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记

一、概述

这篇文章做的任务是视觉问答。论文的创新点主要在于在使用问题的语义表示作为查询来搜索图像中与答案相关的区域的基础之上,开发了一个多层 SAN(Stacked Attention Networks),在其中多次查询图像以逐步推断答案。

模型的结构图如下:
请添加图片描述
SAN首先使用问题向量查询第一个视觉注意层中的图像向量,然后将问题向量和检索到的图像向量组合成一个细化的查询向量,在第二个注意层再次查询图像向量。 更高级别的注意力层给出了更清晰的注意力分布,专注于与答案更相关的区域。 最后,我们将来自最高注意力层的图像特征与最后一个查询向量相结合来预测答案。

二、Image Model

请添加图片描述

与之前的研究使用最后一个内积层的特征不同,我们从最后一个池化层中选择特征 fIf_IfI,它保留了原始图像的空间信息。 我们首先将图像重新缩放为 448 × 448 像素,然后从最后一个池化层中获取特征,因此其维度为 512×14×14,如图 2 所示。14 × 14 是区域数 在图像中,512 是每个区域的特征向量的维度。 因此,fI 中的每个特征向量对应于输入图像的 32×32 像素区域。 我们用 fi,i ∈ [0, 195] 表示每个图像区域的特征向量。

然后为了建模方便,我们使用单层感知器将每个特征向量转换为与问题向量具有相同维度的新向量:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值