【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记

CC‘s World

于 2022-05-23 19:36:17 发布

阅读量628

点赞数 1

CC 4.0 BY-SA版权

分类专栏：多模态文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36643449/article/details/124933222

一、概述

这篇文章做的任务是视觉问答。论文的创新点主要在于在使用问题的语义表示作为查询来搜索图像中与答案相关的区域的基础之上，开发了一个多层 SAN（Stacked Attention Networks），在其中多次查询图像以逐步推断答案。

模型的结构图如下：
请添加图片描述
SAN首先使用问题向量查询第一个视觉注意层中的图像向量，然后将问题向量和检索到的图像向量组合成一个细化的查询向量，在第二个注意层再次查询图像向量。更高级别的注意力层给出了更清晰的注意力分布，专注于与答案更相关的区域。最后，我们将来自最高注意力层的图像特征与最后一个查询向量相结合来预测答案。

二、Image Model

请添加图片描述

与之前的研究使用最后一个内积层的特征不同，我们从最后一个池化层中选择特征 $f_I$ ，它保留了原始图像的空间信息。我们首先将图像重新缩放为 448 × 448 像素，然后从最后一个池化层中获取特征，因此其维度为 512×14×14，如图 2 所示。14 × 14 是区域数在图像中，512 是每个区域的特征向量的维度。因此，fI 中的每个特征向量对应于输入图像的 32×32 像素区域。我们用 fi,i ∈ [0, 195] 表示每个图像区域的特征向量。

然后为了建模方便，我们使用单层感知器将每个特征向量转换为与问题向量具有相同维度的新向量:

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄9年

280
原创

135
点赞

870
收藏

116
粉丝

关注

私信

热门文章

分类专栏

Python 2篇
机器学习 27篇
广告系统 2篇
推荐系统学习 2篇
多模态 25篇
Keras 18篇
算法 11篇
计算机基础 9篇
工程应用 7篇
推荐算法 40篇
PySpark 9篇
C++ 14篇
论文阅读 4篇
TensorFlow 12篇
力扣 54篇
自然语言处理 5篇
MXNet 1篇
Pytorch 13篇
数据结构 2篇
剑指offer编程题 67篇
计算机视觉 1篇

展开全部收起

上一篇：: 【多模态】《Where To Look: Focus Regions for Visual Question Answering》论文阅读笔记

下一篇：: 【多模态】《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》论文阅读笔记

最新评论

【算法】局部敏感哈希 LSH 的 Python 实现
不断生长: 想问一下，这个局部敏感哈希和位置敏感哈希(location sensitive hash)是一样的吗？
【算法】局部敏感哈希 LSH 的 Python 实现
柚子树cc: 后面两个minhash的验证应该使用Jaccard距离吧，找出来的topk明显不太对
【算法】局部敏感哈希 LSH 的 Python 实现
m0_56951613: 最近在学lsh，看了这篇文章有两个问题想问问博主 1、e2lsh不是需要L个哈希函数族，每族k个哈希函数吗，感觉你的代码里好像只有一个哈希函数族，不知道是不是我理解错了 2、经过lsh筛选后，只比较前20个数据的话确实看起来精确度很高，但我输出了candidates发现其实筛选后还有8，9000个数据，也就是说只排除了1000多个数据，我试过其他人的代码，但基本都有这个问题，要保证精确度的话筛选掉的数据量就会很小，想要筛选完的数据量小的话精确度就会很低，是这算法原本的目的就是在海量数据集里筛选掉一小部分的数据吗，还是调参没调好导致效果太差？
【计算机基础】github使用 & git命令
朗197: 帮助很大，非常感谢！！！
【论文阅读】Adaptive Mixtures of Local Experts
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。