ROPE数学公式

原创

zjbshk 2024-05-23 20:39:42 ©著作权

©著作权归作者所有：来自51CTO博客作者zjbshk的原创作品，请联系作者获取转载授权，否则将追究法律责任

要详细了解ROPE（Rotary Position Embedding，旋转位置嵌入）的推理过程，我们需要深入了解它的数学原理及其在自然语言处理（NLP）中的应用。ROPE 是一种位置编码方法，它通过在嵌入向量上应用旋转变换来编码位置信息。这里我们将参考CSDN上的文章，并详细解释其推理过程。

1. 背景与概述

在自然语言处理模型（如 Transformer）中，位置编码用于向模型提供单词顺序的信息。传统的绝对位置编码（如正弦和余弦位置编码）有时会在捕获相对位置信息方面表现不足。ROPE 提供了一种通过旋转变换来编码相对位置的方法。

2. 数学基础

ROPE 使用复数旋转矩阵来实现位置编码。假设输入序列的每个位置 $i$ 有一个对应的嵌入向量 $\mathbf{x}_i$。嵌入向量的维度为 $d$，它被分成 $d/2$ 对复数。

每个位置 $i$ 的旋转变换由一个复数矩阵来表示。具体来说，对于一个维度 $2k$ 和 $2k+1$ 的位置 $i$，定义复数向量：

$$ z_i^k = x_i^{2k} + ix_i^{2k+1} $$

其中$i$是虚数单位。通过引入一个旋转角度 $\theta$，位置 $i$ 处的旋转变换可以表示为：

$$ z_i^k \mapsto z_i^k \cdot e^{i\theta i} $$

3. 旋转位置编码过程

嵌入分割：首先，将嵌入向量 $\mathbf{x}_i$ 分成 $d/2$ 对复数：

$$ \mathbf{x}_i = [x_i^0, x_i^1, x_i^2, x_i^3, \ldots, x_i^{d-2}, x_i^{d-1}] $$

每对形成一个复数向量：

$$ z_i^k = x_i^{2k} + ix_i^{2k+1} $$

旋转角度计算：对于每个位置 (i)，定义旋转角度 $theta_i = \theta \cdot i$，其中 $\theta$ 是一个预定义的常数（通常是一个小值）。
应用旋转：对每个复数向量应用旋转变换：

$$ z_i^k \mapsto z_i^k \cdot e^{i\theta_i} $$

这可以分解为：

$$ z_i^k \cdot e^{i\theta_i} = (x_i^{2k} + ix_i^{2k+1}) \cdot (\cos(\theta_i) + i\sin(\theta_i)) $$

复数乘法：进行复数乘法，得到：

$$ \begin{aligned} \text{Re}(z_i^k \cdot e^{i\theta_i}) &= x_i^{2k} \cos(\theta_i) - x_i^{2k+1} \sin(\theta_i) \ \text{Im}(z_i^k \cdot e^{i\theta_i}) &= x_i^{2k} \sin(\theta_i) + x_i^{2k+1} \cos(\theta_i) \end{aligned} $$

重组向量：将复数的实部和虚部分别作为新的嵌入向量的偶数和奇数位置：

$$ \mathbf{x}_i' = [\text{Re}(z_i^0 \cdot e^{i\theta_i}), \text{Im}(z_i^0 \cdot e^{i\theta_i}), \ldots, \text{Re}(z_i^{d/2-1} \cdot e^{i\theta_i}), \text{Im}(z_i^{d/2-1} \cdot e^{i\theta_i})] $$