GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性、类比性等。
构建共现矩阵
设共现矩阵为 ,其元素为
的意义为:在整个语料库中,单词 和单词
具体示例见:
词向量与共现矩阵的近似关系
构建词向量(Word Vector)和共现矩阵(Co-ocurrence Matrix)之间的近似关系,论文的作者提出以下的公式可以近似地表达两者之间的关系:
具体公式推导见:https://zhuanlan.zhihu.com/p/42073620
构造损失函数
综上 定义如下:
GloVe与LSA、Word2Vec的区别
- LSA是基于奇异值分解(SVD)的算法,该方法对term-document矩阵(矩阵的每个元素为tf-idf)进行奇异值分解,从而得到term的向量表示和document的向量表示。此处使用的tf-idf主要还是term的全局统计特征。而我们SVD的复杂度是很高的,所以它的计算代价比较大。还有一点是它对所有单词的统计权重都是一致的。
- word2vec最大的缺点则是没有充分利用所有的语料,只利用了局部的上下文特征。
- GloVe模型就是将这两中特征合并到一起的,即使用了语料库的全局统计(overall statistics)特征,也使用了局部的上下文特征(即滑动窗口)。