REVISITING TRANSFORMERS FOR NLP

原创

mob649e816347dd 2023-12-12 05:08:53 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e816347dd的原创作品，请联系作者获取转载授权，否则将追究法律责任

重访NLP中的Transformers

在自然语言处理（NLP）领域，Transformers模型是近年来最重要的突破之一。它通过自注意力机制（self-attention）来处理序列数据，取得了令人瞩目的成果。然而，为了更好地理解和应用Transformers模型，我们需要对其进行深入探讨。本文将介绍Transformers模型的原理，并提供一个基于PyTorch的代码示例。

Transformers模型原理

Transformers模型是一种基于注意力机制的序列到序列模型，主要由编码器和解码器组成。编码器负责将输入序列（如句子）转换为连续表示，解码器则将这些表示转化为目标序列（如翻译）。

编码器的核心组件是自注意力机制，它能够将序列中的每个元素与其他元素进行交互。自注意力机制通过计算每对元素之间的注意力权重，从而为每个元素生成一个表示。这样，每个元素将同时考虑到与它相似的其他元素的信息。

解码器也采用了自注意力机制，但还引入了一个额外的注意力机制，用来对编码器的输出进行加权处理。这样，解码器能够更好地关注与当前解码步骤相关的输入信息。

为了训练Transformers模型，我们需要对输入和输出序列进行编码。我们可以使用标记嵌入（token embedding）对每个输入和输出标记进行编码，也可以使用位置嵌入（position embedding）来编码每个标记的位置信息。

实现Transformers模型

下面是一个基于PyTorch实现的简化版本的Transformers模型示例：

import torch
import torch.nn as nn
import torch.nn.functional as F

class SelfAttention(nn.Module):
    def __init__(self, d_model, n_heads):
        super(SelfAttention, self).__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.head_dim = d_model // n_heads
        
        self.query = nn.Linear(d_model, d_model)
        self.key = nn.Linear(d_model, d_model)
        self.value = nn.Linear(d_model, d_model)
        
    def forward(self, x):
        batch_size, seq_len, _ = x.size()
        
        Q = self.query(x)  # [batch_size, seq_len, d_model]
        K = self.key(x)  # [batch_size, seq_len, d_model]
        V = self.value(x)  # [batch_size, seq_len, d_model]
        
        Q = Q.view(batch_size, seq_len, self.n_heads, self.head_dim)  # [batch_size, seq_len, n_heads, head_dim]
        K = K.view(batch_size, seq_len, self.n_heads, self.head_dim)  # [batch_size, seq_len, n_heads, head_dim]
        V = V.view(batch_size, seq_len, self.n_heads, self.head_dim)  # [batch_size, seq_len, n_heads, head_dim]
        
        Q = Q.permute(0, 2, 1, 3)  # [batch_size, n_heads, seq_len, head_dim]
        K = K.permute(0, 2, 1, 3)  # [batch_size, n_heads, seq_len, head_dim]
        V = V.permute(0, 2, 1, 3)  # [batch_size, n_heads, seq_len, head_dim]
        
        attention_scores = torch.matmul(Q, K.permute(0, 1, 3, 2)) / torch.sqrt(torch.tensor(self.head_dim, dtype=torch.float))  # [batch_size, n_heads, seq_len, seq_len]
        attention_weights = F.softmax(attention_scores, dim=-1)  # [batch_size, n_heads, seq_len, seq_len]
        
        output = torch.matmul(attention_weights, V)  # [batch_size, n_heads, seq_len, head_dim]
        output = output.permute(0, 2, 1, 3).contiguous()  # [batch_size, seq_len, n_heads, head_dim]
        output = output.view(batch_size, seq_len, self.d_model)  # [batch_size, seq_len, d_model]
        
        return output

class Transformer(nn.Module):
    def __init__(self, d_model, n_heads, n_layers):
        super(Transformer, self).__init__()
        self.d_model = d_model
        self