Adversarial Attribute-Text Embedding for Person Search with Natural Language Query

提出了一种基于自然语言查询的人检索对抗属性-文本嵌入(AATE)网络,利用跨模态对抗学习和属性图网络,实现视觉与文本特征的模态不变性和区分性。通过视觉属性图卷积网络、层次式文本嵌入网络和跨模态对抗学习模块,提高人检索的鲁棒性和描述性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用于自然语言查询的人物搜索的对抗属性文本嵌入
提出了基于文本查询的人搜索的对抗属性-文本嵌入(AATE)网络。

动机:
既有作品在跨模态相似或共同特征空间中保持语义上的密切联系,又进一步追求视觉和文本表征的模态不变性。也就是说,在视觉和文本模式上的分布被鼓励在学习表征中是相似的。现有的方法多基于行人的视觉外观特征,对背景杂波、光照变化、人体姿态、视点等具有一定的鲁棒性。
行人视觉属性的检测对于行人的搜索具有重要意义。此外,与外观特征相比,视觉属性具有更好的描述性、互操作性和鲁棒性。一个属性通常来自一个或多个区域,而不是整个行人图像。因此,在属性学习过程中,有必要关注相关区域。此外,不同的属性在语义上相互关联。某一属性的存在或不存在对于推断其他相关属性的存在或不存在通常是有用的。

贡献:
1.提出了一种新的基于自然语言查询的人检索的对抗性视觉属性和文本嵌入网络(AATE)
2.开发了一个跨模态对抗学习模块来学习区分性和模态不变的视文本特征,它由一个多模态学习者和一个模态鉴别器组成,以一种对抗性的学习方式进行最小-最大博弈。它不仅在每个模态内具有区别性,而且在模态间具有相似的分布
3.利用属性图网络,联合利用属性的视觉注意力和属性间的语义依赖,学习有效的属性特征。与行人的外观特征相比,该网络具有更好的描述性、可解释性和鲁棒性。
4.为了从行人的文本描述中提取有效的文本特征,提出了一种由多层双向lstm和注意块组成的分层文本嵌入网络。
框架:

在这里插入图片描述
AATE的整体网络架构,它由用于学习视觉特征的视觉属性图卷积网络、用于学习文本特征的层次式文本嵌入网络和用于学习模态不变和判别式视觉文本表示的跨模态对抗学习模块组成。

视觉属性图卷积网络:
在这里插入图片描述
该网络的作用是:利用属性间潜在的语义环境,提高属性的学习能力。

分层文本嵌入网络:
在这里插入图片描述
层次式文本嵌入网络由一个词嵌入层、多层双向LSTMs (Bi-LSTMs)和一个文本注意块组成。
Bi-LSTM记忆单词之间潜在的语义依赖关系,有选择地发现和传播相关的历史和未来上下文到下一个单词。
使用文本注意块能够产生更精确的文本特征

跨模态对抗网络:
在这里插入图片描述
对抗网络学习区分性和模态不变的视觉-文本表示。它由一个模态鉴别器和一个跨模态学习组成。模态鉴别器的设计目的是区分视觉模态和文本模态的特征。采用跨模态学习来提高视觉文本表征的辨析能力,保持同一行人的图像与文本之间的语义亲和力。它使用识别损失和三重损失。前者鼓励视觉和文本特征的区别,后者保持语义的亲和力。

实验:
在CUHK-PEDES和CUB-200-2011数据集上进行实验
在CUHK-PEDES的结果:
在这里插入图片描述
在CUB-200-2011的结果:
在这里插入图片描述
在消融实验中,作者分别制作了
1.视觉属性图网络,仅使用外观特征的AATE的变体
2.使用单层Bi-LSTM而不是多层Bi-LSTM的变体
3.没有跨模式对抗学习模块的变体。只使用识别损耗和三重损耗。
下图是实验结果(每一项由上到下与1、2、3对应):
在这里插入图片描述
之后又制作了有属性注意块,但没有图形卷积模块的变体,来分析可视化属性图的作用。下图是结果。
在这里插入图片描述
进行层次式文本嵌入网络分析,设置一个使用了单层的Bi-LSTM而不是多层的Bi-LSTMs的变体和一个没有文本注意块的变体。
在这里插入图片描述
:基于三种损失函数的交叉模态竞争学习,包括竞争损失Ladv、识别损失Lide和三重损失Ltri。设置实验来对损失函数进行分析。AATE_Lide是指仅使用识别损失的变体。AATE_Ltri是唯一使用三重损耗的。AATE_Lxs使用了识别和三重损失。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值