文本向量化

文本向量化表示就是用数值向量来表示文本的语义。我们人类在读一段文本后立刻就能明白它要表达的内容,如何让机器也能拥有这样的能力呢?文本分类领域使用了信息检索领域的词袋模型,词袋模型在部分保留文本语义的前提下对文本进行向量化表示。

One-Hot表示法
TF表示法
TF-IDF表示法
Word2vec
BERT

NLP 句向量 文本预处理 文本向量化方法_自然语言处理

下面根据一个案例分别讲解各向量化方法的思想:

NLP 句向量 文本预处理 文本向量化方法_word2vec_02

说明:id:表示文章的数量;假设文档已经分词

1.1 One-Hot表示法

思想:



1.2 TF表示法

思想:


NLP 句向量 文本预处理 文本向量化方法_NLP 句向量 文本预处理_03

1.3 TF-IDF表示法

思想:

  • TF-IDF表示法:词语序列中出现的词语其数值为词语在所在文本中的频次乘以词语的逆文档频率,词语序列中未出现的词语其数值为0。用数学式子表达为:

1.4 Word2vec表示法

思想:


  • word2vec是一种将word转为向量的方法,其包含两种算法,分别是skip-gram和CBOW,它们的最大区别是skip-gram是通过中心词去预测中心词周围的词,而CBOW是通过周围的词去预测中心词。