python词共现矩阵共词矩阵百度百科

转载

imking 2024-01-19 23:26:25

文章标签 python词共现矩阵 GloVe 词向量权重 Word 文章分类 Python 后端开发

GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性、类比性等。

构建共现矩阵

设共现矩阵为 $python词共现矩阵共词矩阵百度百科_python词共现矩阵$ ，其元素为 $python词共现矩阵共词矩阵百度百科_Word_02$

$python词共现矩阵共词矩阵百度百科_Word_02$ 的意义为：在整个语料库中，单词 $python词共现矩阵共词矩阵百度百科_Word_04$ 和单词 $python词共现矩阵共词矩阵百度百科_词向量_05$

具体示例见：

词向量与共现矩阵的近似关系

构建词向量（Word Vector）和共现矩阵（Co-ocurrence Matrix）之间的近似关系，论文的作者提出以下的公式可以近似地表达两者之间的关系：

$python词共现矩阵共词矩阵百度百科_Word_06$

具体公式推导见：https://zhuanlan.zhihu.com/p/42073620

构造损失函数

$python词共现矩阵共词矩阵百度百科_词向量_07$

$python词共现矩阵共词矩阵百度百科_GloVe_08$

$python词共现矩阵共词矩阵百度百科_权重_09$
$python词共现矩阵共词矩阵百度百科_GloVe_10$
$python词共现矩阵共词矩阵百度百科_GloVe_10$

综上 $python词共现矩阵共词矩阵百度百科_GloVe_08$ 定义如下：
$python词共现矩阵共词矩阵百度百科_词向量_13$

GloVe与LSA、Word2Vec的区别

LSA是基于奇异值分解（SVD）的算法，该方法对term-document矩阵（矩阵的每个元素为tf-idf）进行奇异值分解，从而得到term的向量表示和document的向量表示。此处使用的tf-idf主要还是term的全局统计特征。而我们SVD的复杂度是很高的，所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。
word2vec最大的缺点则是没有充分利用所有的语料，只利用了局部的上下文特征。
GloVe模型就是将这两中特征合并到一起的，即使用了语料库的全局统计（overall statistics）特征，也使用了局部的上下文特征（即滑动窗口）。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。