主要用于发现主题,解决词向量相近关系的表示; 将共现矩阵行(列)作为词向量

例如:语料库如下: 

• I like deep learning. 

• I like NLP. 

• I enjoy flying.

则共现矩阵表示如下:(使用对称的窗函数(左右window length都为1) )

 

共现矩阵_词向量

 

 

 

例如:“I like”出现在第1,2句话中,一共出现2次,所以=2。 

对称的窗口指的是,“like I”也是2次

将共现矩阵行(列)作为词向量表示后,可以知道like,enjoy都是在I附近且统计数目大约相等,他们意思相近

但是共现矩阵也存在很多问题

面临稀疏性问题、向量维数随着词典大小线性增长

解决:SVD、PCA降维,但是计算量大