一、标记化(Tokenization)

将文本切分成词

二、去停用词(Stop words)

停用词指的是一些出现很多却没啥实义的如介词、连词、冠词“and”、“the”、“a”等

三、词干(Stemming)

将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统一处理,像在英语中,无论这个词是过去式还是完成式还是进行式,统统看作原型

四、词嵌入(Word Embeddings)

将单词以数字表达的方式,这样一来,具有相似含义的单词表达也会相似。如今的单词嵌入是将单个单词表示为预定义向量空间中的实值向量,所有单词的向量长度相同,只是值有差异。两个单词的向量之间的距离代表着其语义的接近程度

有一种创建单词嵌入的常见方法被称为GloVe,它代表着“全局向量”。GloVe捕获文本语料库的全局统计信息和局部统计信息,以创建单词向量。GloVe使用了所谓的共现矩阵(co-occurrence matrix)。共现矩阵表示每对单词在语料库里一起出现的频率。

五、词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)

术语“词频-逆文档频率”(常被称为TF-IDF)是一种加权因子,经常在诸如信息检索及文本挖掘类的应用中使用。TF-IDF会使用统计数据来衡量某个单词对特定文档的重要程度。

TF——词频:衡量某字符串在某个文档中出现的频率。计算方式:将文档中出现的总数除以文档总长度(以标准化)。

IDF——逆文档频率:衡量某字符串在某个文档中的重要程度。例如:特定字符串如“is”、“of”和“a”会在许多文档中多次出现,但并无多少实际含义——它们不是形容词或者动词。因此IDF会根据重要程度对每个字符串加权,计算方式为:将数据集的总文档数目,除以包含该字符串的文档数目(需将分母+1,避免分母为0),再将得到的商取对数算出。

TF-IDF:最终的计算结果将TF与IDF相乘。

六、主题模型(Topic Modeling)

主题建模通常通过隐含狄利克雷分布(LDA)来完成。借助LDA,我们将各个文本文档按照主题的多项分布,各个主题按照单词(通过标记化、停用词删除、提取主干等多个技术清理出的单个字符)的多项分布来建模。

首先,我们会告知LDA各个文档应当有多少主题,每个主题应当由多少单词构成。针对指定文档的数据集,LDA会尝试确定哪些主题的组合和分布可以准确重建相应文档以及其中的所有文本。可以通过构建实际文档,确定哪个主题有效,并在指定主题的情况下,根据单词的概率分布对单词进行采样以完成构建。

七、情感分析(Sentiment Analysis)

通过深度学习技术,将情感分析按照分类问题来建模。将文本数据编码到一个嵌入空间中(与上述的单词嵌入类似),这是功能提取的一种形式。之后将这些功能传递到分类模型,对文本情绪进行分类。情感分析某个教程:With Random Forest:https://stackabuse.com/python-for-nlp-sentiment-analysis-with-scikit-learn/

 

 

好困,就到这里。