解析Torch中多头注意力`MultiheadAttention`

前沿: 这部分内容是《Attention Is All You Need》出来之后就深入研究了这篇文章的模型结构,也是之后工作那一年进行实际落地的一小部分内容。最近再次使用它,顺带读了torch官方的实现,大家风范的实现,注意很多细节,值得我们学习,也顺带放在这,之后就不再了解这块内容了,过去式了。下面是内容:

MultiheadAttention

class MultiheadAttention(Module):
    r"""Allows the model to jointly attend to information
    from different representation subspaces.
    See `Attention Is All You Need <https://arxiv.org/abs/1706.03762>`_

    .. math::
        \text{MultiHead}(Q, K, V) = \text{Concat}(head_1,\dots,head_h)W^O

    where :math:`head_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)`.

    Args:
        embed_dim: total dimension of the model.
        num_heads: parallel attention heads.
        dropout: a Dropout layer on attn_output_weights. Default: 0.0.
        bias: add bias as module parameter. Default: True.
        add_bias_kv: add bias to the key and value sequences at dim=0.
        add_zero_attn: add a new batch of zeros to the key and
                       value sequences at dim=1.
        kdim: total number of features in key. Default: None.
        vdim: total number of features in value. Default: None.
        batch_first: If ``True``, then the input and output tensors are provided
            as (batch, seq, feature). Default: ``False`` (seq, batch, feature).

    Note that if :attr:`kdim` and :attr:`vdim` are None, they will be set
    to :attr:`embed_dim` such that query, key, and value have the same
    number of features.

    Examples::

        >>> multihead_attn = nn.MultiheadAttention(embed_dim, num_heads)
        >>> attn_output, attn_output_weights = multihead_attn(query, key, value)
    """
    __constants__ = ['batch_first']
    bias_k: Optional[torch.Tensor]
    bias_v: Optional[torch.Tensor]

    def __init__(self, embed_dim, num_heads, dropout=0., bias=True, add_bias_kv=False, add_zero_attn=False,
                 kdim=None, vdim=None, batch_first=False, device=None, dtype=None) -> None:
        """

        :param embed_dim: 模型的嵌入维度,即查询、键和值的维度
        :param num_heads: 并行的注意力头的数量
        :param dropout: 一个可选参数,用于定义在注意力权重上的 Dropout 层的丢弃率,默认为0
        :param bias: 一个布尔值,用于确定是否在投影权重中添加偏置,默认为 True
        :param add_bias_kv: 一个布尔值,用于确定是否在键和值的序列中添加额外的偏置项,默认为 False
        :param add_zero_attn: 一个布尔值,用于确定是否在键和值序列中添加一个新的零向量,默认为 False
        :param kdim: 键的维度,如果没有提供则默认等于 embed_dim
        :param vdim: 值的维度,如果没有提供则默认等于 embed_dim
        :param batch_first: 一个布尔值,用于确定输入和输出张量的维度顺序是否为 (batch, seq, feature),默认为 False,即 (seq, batch, feature)
        :param device: 用于指定参数的设备(CPU/GPU)
        :param dtype: 用于指定参数的数据类型
        """
        # 创建一个字典 factory_kwargs 来存储设备和数据类型的信息,这些信息将在后面创建参数时使用。
        factory_kwargs = {
   
   'device': device, 'dtype': dtype}
        super(MultiheadAttention, self).__init__()

        #  设置 embed_dim、kdim 和 vdim 的值,如果 kdim 和 vdim 没有指定,则它们等于 embed_dim
        self.embed_dim = embed_dim
        self.kdim = kdim if kdim is not None else embed_dim
        self.vdim = vdim if vdim is not None else embed_dim

        # 判断键、值和嵌入维度是否相同,这影响到投影权重的创建方式
        self._qkv_same_embed_dim = self.kdim == embed_dim and self.vdim == embed_dim

        # 设置 num_heads、dropout 和 batch_first。
        # 计算每个头的维度 head_dim。
        # 确保 embed_dim 能够被 num_heads 整除,这是多头注意力机制的要求
        self.num_heads = num_heads
        self.dropout = dropout
        self.batch_first = batch_first
        self.head_dim = embed_dim // num_heads
        assert self.head_dim * num_heads == self.embed_dim, "embed_dim must be divisible by num_heads"

        # 根据 _qkv_same_embed_dim 的真假创建投影权重。如果维度相同,则创建一个大型的共享权重矩阵;如果不相同,则为查询、键和值创建单独的权重矩阵
        if self._qkv_same_embed_dim is False:
            self.q_proj_weight = Parameter(torch.empty((embed_dim, embed_dim), **factory_kwargs))
            self.k_proj_weight = Parameter(torch.empty((embed_dim, self.kdim), **factory_kwargs))
            self.v_proj_weight = Parameter(torch.empty((embed_dim, self.vdim), **factory_kwargs))
            self.register_parameter('in_proj_weight', None)
        else:
            self.in_proj_weight = Parameter(torch.empty((3 * embed_dim, embed_dim), **factory_kwargs))
            self.register_parameter('q_proj_weight', None)
            self.register_parameter('k_proj_weight', None)
            self.register_parameter('v_proj_weight', None)

        # 如果 bias 为 True,则创建一个偏置参数;否则,不创建偏置参数
        if bias:
            self.in_proj_bias = Parameter(torch.empty(3 * embed_dim, **factory_kwargs))
        else:
            self.register_parameter('in_proj_bias', None)

        # 创建输出投影层,这是一个线性层,用于在多头注意力计算之后将输出映射回 embed_dim 维度
        self.out_proj = NonDynamicallyQuantizableLinear(embed_dim, embed_dim, bias=bias, **factory_kwargs)

        # 如果 add_bias_kv 为 True,则创建键和值的偏置参数;否则,不创建这些偏置参数
        if add_bias_kv:
            self.bias_k = Parameter(torch.empty((1, 1, embed_dim), **factory_kwargs))
            self.bias_v = Parameter(torch.empty((1, 1, embed_dim), **factory_kwargs))
        else:
            self.bias_k = self.bias_v = None

        # 设置 add_zero_attn,用于控制是否在键和值序列中添加零向量
        self.add_zero_attn = add_zero_attn

        # 用 _reset_parameters 方法来初始化所有的参数,例如通过 Xavier 初始化等方法来确保参数的合理范围。这一步是确保模型在训练开始时有一个良好的初始状态
        self._reset_parameters()

    def _reset_parameters(self):
        if self._qkv_same_embed_dim:
            xavier_uniform_(self.in_proj_weight)
        else:
            xavier_uniform_(self.q_proj_weight)
            xavier_uniform_(self.k_proj_weight)
            xavier_uniform_(self.v_proj_weight)

        if self.in_proj_bias is not None:
            constant_(self.in_proj_bias, 0.)
            constant_(self.out_proj.bias, 0.)
        if self.bias_k is not None:
            xavier_normal_(self.bias_k)
        if self.bias_v is not None:
            xavier_normal_(self.bias_v)

    def __setstate__(self, state):
        # Support loading old MultiheadAttention checkpoints generated by v1.1.0
        if '_qkv_same_embed_dim' not in state:
            state['_qkv_same_embed_dim'] = True

        super(MultiheadAttention, self).__setstate__(state)

    def forward(self, query: Tensor, key: Tensor, value: Tensor, key_padding_mask: Optional[Tensor] = None,
                need_weights: bool = True, attn_mask: Optional[Tensor] = None) -> Tuple[Tensor, Optional[Tensor]]:
        r"""
        参数说明:
            query(查询)、key(键)、value(值):将一个查询和一组键值对映射到一个输出。更多细节请参考论文《Attention Is All You Need》。
            key_padding_mask:如果提供,那么在键中的指定填充元素将被注意力机制忽略。当给定一个二进制掩码并且某个值为True时,注意力层上对应的值将被忽略。当给定一个字节掩码且某个值非零时,注意力层上对应的值也将被忽略。
            need_weights:输出注意力权重attn_output_weights。
            attn_mask:2D或3D的掩码,用于阻止对某些位置的注意力。一个2D掩码将为所有批次广播,而一个3D掩码允许为每个批次的条目指定不同的掩码。

        输入张量的形状:
            query:数学表示为(L, N, E),其中L是目标序列长度,N是批次大小,E是嵌入维度。如果batch_first设置为True,则表示为(N, L, E)。
            key:数学表示为(S, N, E)
### 多头注意力机制在深度学习中的工作原理 多头注意力机制允许模型在同一序列的不同位置关注不同部分的信息,从而增强模型捕捉复杂模式的能力。具体来说,该机制通过多个平行的自注意力层来实现这一点[^2]。 #### 自注意力机制的基础 在一个标准的自注意力层中,输入向量被转换成三个不同的矩阵:查询(Query)、键(Key)以及值(Value)。这些矩阵用于计算注意力分数,进而加权求和得到输出表示。这种结构使得网络能够聚焦于输入中最相关的部分。 ```python import torch.nn as nn import math class ScaledDotProductAttention(nn.Module): def __init__(self, d_k): super(ScaledDotProductAttention, self).__init__() self.d_k = d_k def forward(self, Q, K, V, attn_mask=None): scores = torch.matmul(Q, K.transpose(-1, -2)) / math.sqrt(self.d_k) if attn_mask is not None: scores.masked_fill_(attn_mask, -1e9) attn = F.softmax(scores, dim=-1) context = torch.matmul(attn, V) return context, attn ``` #### 实现多头并行处理 为了进一步提升性能,Transformer引入了多头设计——即创建多个独立的自注意单元,并将它们的结果拼接起来作为最终输出的一部分。这样做不仅增加了模型容量,还让其可以同时考虑来自不同表征子空间的信息流。 ```python class MultiHeadAttention(nn.Module): def __init__(self, d_model, num_heads): super(MultiHeadAttention, self).__init__() assert d_model % num_heads == 0 self.num_heads = num_heads self.d_k = d_model // num_heads self.W_Q = nn.Linear(d_model, d_model) self.W_K = nn.Linear(d_model, d_model) self.W_V = nn.Linear(d_model, d_model) self.attention = ScaledDotProductAttention(self.d_k) self.linear = nn.Linear(d_model, d_model) def split_heads(self, x, batch_size): """Split the last dimension into (num_heads, depth).""" return x.view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2) def combine_heads(self, x): """Merge heads back together.""" batch_size, _, seq_len, _ = x.size() return x.transpose(1, 2).contiguous().view(batch_size, seq_len, -1) def forward(self, Q, K, V, mask=None): batch_size = Q.size(0) q = self.split_heads(self.W_Q(Q), batch_size) k = self.split_heads(self.W_K(K), batch_size) v = self.split_heads(self.W_V(V), batch_size) out, attn_weights = self.attention(q, k, v, mask) out = self.combine_heads(out) return self.linear(out), attn_weights ``` ### 应用场景 多头注意力广泛应用于自然语言处理领域内的各种任务上: - **机器翻译**:帮助解码器更好地理解源语句的意义,提高目标语言生成的质量。 - **文本摘要**:使模型能够在更细粒度级别上识别重要信息片段,生成高质量总结。 - **问答系统**:支持对问题的理解及其对应的文档或段落之间的关联匹配。 此外,在视觉任务如图像描述生成等方面也有出色表现,因为这类方法同样适用于处理具有时空依赖关系的数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值