NLP文本向量化工具 nlp词向量

转载

字节小舞神 2024-04-20 20:36:47

文章标签 NLP文本向量化工具自然语言处理词向量编码格式深度学习 文章分类 NLP 人工智能

什么是词（字）向量？
将单词（apple、吃饭）用向量的形式进行表示，比如将单词“吃饭”表示为一个三维向量x=[x1,x2,x3]。一个词语或者一个字在NLP中被称为一个token。
one-hot来编码字典
比如一个汉语字典有3个单词“(index:0)吃饭”、“(index:1)睡觉”、“(index:2)打牌”构成，则one-hot编码结果如下：

单词	one-hot编码
吃饭	001
睡觉	010
打牌	100

经过one-hot编码以后，一个单词就被编码为一个向量，该向量只有一个元素为1，其余全为0；
one-hot编码的缺点：
（1）特征稀疏。one-hot编码具有很大的稀疏性，例如一个语料库有10000个单词，则每一个单词都被编码为一个长度为10000的向量，而该向量则含有9999个0。
（2）无法表征词与词之间的相互关系。因为one-hot编码后的任意两个词语都是正交的。
所以提出了更高效的Embedding（嵌入）编码方法。

使用Embedding将单词的one-hot编码格式转换为词向量形式
所谓的Embedding其实就是指一个线性变换矩阵，通过该变换矩阵，将one-hot编码格式，转换为词向量形式。

这个Embedding矩阵，是需要训练的，不过前人已经训练好了很多中文、英文等语料库的Embedding矩阵，可以直接拿来使用。

Embedding编码的优势：

NLP文本向量化工具 nlp词向量_编码格式