bert词嵌入矩阵

转载

mob6454cc63081f 2024-07-11 07:48:36

文章标签 bert词嵌入矩阵深度学习 torch python 因吉 文章分类 NLP 人工智能

文章目录

引入
1 为何不采用one-hot向量?
2 跳字模型

引入

自然语言是一套用来表达含义的复杂系统。这套系统中，词是表义的基本单元，词向量则是用来表示词的向量。把词映射为实数域向量的技术也叫做词嵌入 (word embedding)。近年来，词嵌入逐渐成为自然语言处理的基础知识。

1 为何不采用one-hot向量?

简单回顾一下one-hot：
假设词典中不同词的数量为 $bert词嵌入矩阵_深度学习$ ，每个词可以从 $bert词嵌入矩阵_因吉_02$ 到 $bert词嵌入矩阵_因吉_03$ 的连续整数一一对应。这些与词对应的整数叫做词的索引。
假设一个词的索引为 $bert词嵌入矩阵_bert词嵌入矩阵_04$ ，为了得到该词的one-hot向量，我们创建了一个全 $bert词嵌入矩阵_因吉_02$ 且长度为 $bert词嵌入矩阵_深度学习$ 的向量，并将第 $bert词嵌入矩阵_bert词嵌入矩阵_04$ 位设置位 $bert词嵌入矩阵_深度学习_08$ 。这样构建的向量将可以直接给神经网络使用。
然而，尽管ont-hot向量构建容易，但是这可能出现以下问题：One-hot词向量无法准确表示不同词之间的相似度，如余弦相似度。对于向量 $bert词嵌入矩阵_torch_09$ ，其余弦相似度计算为：
$bert词嵌入矩阵_bert词嵌入矩阵_10$ 显然，任意两个不同词的one-hot向量的余弦相似度将为 $bert词嵌入矩阵_因吉_02$ 。
Word2vec工具的提出是为了解决上述问题：
1）将每个词表示成一个定长的向量，并使得这些向量能够较好地表达不同词之间的相似和类比关系；
2）包含两个模型，跳字模型 (skip-gram)和连续词袋模型 (continuous bag of words, CBOW)。

2 跳字模型

跳字模型假设基于某个词来生成它在文本系列周围的词。例如，假设文本序列是“the”、“man”、“loves”、“his”、“son”，以“love”作为中心词，设背景窗口大小为 $bert词嵌入矩阵_python_12$ 。如下图所示，跳字模型所关心的是给定中心词“loves”，生成其窗口范围内的背景词“the”、“man”、“his”、“son”的条件概率，即

$bert词嵌入矩阵_bert词嵌入矩阵_13$ 假定给定中心词的情况下，背景词的生成是相互独立的，那么上式可以改写为

$bert词嵌入矩阵_深度学习_14$

bert词嵌入矩阵_bert词嵌入矩阵_15

在跳字模型中，每个词被表示成两个 $bert词嵌入矩阵_torch_16$ 维向量，用来计算条件概率。假设这个词在词典中索引为 $bert词嵌入矩阵_bert词嵌入矩阵_04$ ，当它为中心词时向量表示为 $bert词嵌入矩阵_torch_18$ ，而当为背景词时向量表示为 $bert词嵌入矩阵_python_19$ 。

设中心词 $bert词嵌入矩阵_torch_20$ 在词典中的索引为 $bert词嵌入矩阵_bert词嵌入矩阵_21$ ，背景词 $bert词嵌入矩阵_bert词嵌入矩阵_22$ 的索引为 $bert词嵌入矩阵_深度学习_23$ ，给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算得到：