A Survey on Vision Transformer

本文详细探讨了Transformer在计算机视觉中的应用,包括自注意力机制、视觉Transformer的主干网络、高/中级视觉任务、低级视觉任务、视频处理、多模态任务以及效率提升的方法。重点介绍了Transformer在网络设计、自监督学习、卷积融合等方面的各种变体和优化策略,同时也指出了视觉Transformer面临的挑战和未来研究方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

本文探讨的主要类别包括:主干网络、高/中级视觉、低级视觉和视频处理。
我们还包括有效的Transformer方法,用于将Transformer推进device-based的实际应用。
此外还简要介绍了计算机视觉中的自我注意机制,因为它是Transformer的基本组成部分。
在本文的最后,讨论了视觉Transformer面临的挑战,并提供了几个进一步的研究方向。

1. Introduction

high-level视觉:处理的是对图像中所见内容的解释和使用。
mid-level视觉:处理的是这些信息是如何组织成我们所体验到的物体和表面objects and surfaces.
(由于在DNN-based vision system中、高级的界限变得越来越模糊,此处将其视为一个种类)
low-level图像处理:处理的主要是从图像中提取description(此类描述通常表示为图像本身)。
在这里插入图片描述


2. Formulation of Transformer

2.1 Self-Attention

输入向量首先被转换成三个不同的向量:the query vector q q q, the key vector k k k and the
value vector v v v with dimension d q = d k = d v = d m o d e l = 512 d_q = d_k = d_v = d_{model} = 512 dq=dk=dv=dmodel=512, 之后贝打包成三个矩阵: Q , K , V Q,K,V Q,K,V
具体步骤如下:

图示可以看Fig 2.1的左图

Multi-Head Attention

是一个可以用来提高原始自注意的层performance的机制。

当我们给定一个参考词时,在通读句子时通常希望关注其他几个词,Single-Head自注意层限制了我们专注于一个或多个特定位置的能力,而同时不影响对其他同等重要位置的关注。

这是通过赋予注意层不同的表示子空间来实现的,具体地说,不同的头部使用不同的查询矩阵 Q Q Q、键矩阵 K K K和值矩阵 V V V,由于随机初始化,这些矩阵可以在训练后将输入向量投影到不同的表示子空间。

更详细地阐述这一点,给定一个输入vector,和heads数 h h h

首先将input vector分为三组,the query group, the key group and the value group.

每个组中有h个vector,每个vector的dimension为 d q ′ = d k ′ = d v ′ = d m o d e l / h = 64. d_{q^{'}} = d_{k^{'}} = d_{v^{'}} = d_{model}/h = 64. dq=dk=dv=dmodel/h=64.

这些vector会被打包成三组不同的矩阵: { Q i } i = 1 h , { K i } i = 1 h , { V i } i = 1 h . \{ {Q_i}\}^h_{i=1}, \{ {K_i}\}^h_{i=1}, \{ {V_i}\}^h_{i=1}. { Qi}i=1h,{ Ki}i=1h,{ Vi}i=1h.

具体步骤如下:
M u l t i H e a d ( Q ′ , K ′ , V ′ ) = C o n c a t ( h e a d 1 , . . . , h e a d h ) W o , MultiHead(Q^{'}, K^{'}, V^{'}) = Concat(head_1,...,head_h)W^o, MultiHead(Q,K,V)=Concat(head1,...,headh)Wo,

其中:
h e a d i = A t t e n t i o n ( Q i , K i , V i ) . head_i = Attention(Q_i, K_i, V_i). headi=Attention(Qi,Ki,Vi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值