在”小叮当深度学习:自然语言处理(一)“中,想必大家已经基本了解了什么是自然语言处理,今天,小叮当接着为大家分享自然语言处理中的文本处理流程。

自然语言处理 文本预处理 自然语言处理过程_人工智能

在自然语言处理过程中,计算机是不认识我们的文本信息的,它所认识的只有0和1。

自然语言处理 文本预处理 自然语言处理过程_文本处理_02

于是,我们便可知道,想要使用计算机进行文本处理,首先我们得让计算机认识我们的文本信息。

自然语言处理 文本预处理 自然语言处理过程_自然语言处理_03

那么,如何让计算机认识我们的文本信息呢?通常我们会对文本信息进行预处理,分词,特征化,将文本信息转化为计算机能够识别的0和1之后,再进行机器学习、深度学习等对计算机识别出的文本进行处理。

(1)预处理(Preprocess)

我们通常使用的文本信息中,包含了标点,特殊字符等,在大部分的文本处理任务中,我们认为文本中,携带的这些信息是无效的。预处理的目的就是去除这些无效的噪声。(有的地方也把预处理这步称之为”数据清洗“。)

自然语言处理 文本预处理 自然语言处理过程_文本处理_04

(2) 分词(Tokenize)

分词是指,将我们预处理后的文本信息,以词为单位进行划分。这样,计算机便可以按词来分配存储单元。计算机凭借不同的存储位置,便可以识别出不同的词。

自然语言处理 文本预处理 自然语言处理过程_自然语言处理_05

(3) 特征化(Make Features )

特征化,简单来说就是向量化。在这步,计算机会根据已知的一些算法将不同的词转化为对应的数字信息,从而使计算机能够识别。

自然语言处理 文本预处理 自然语言处理过程_自然语言处理 文本预处理_06

(4)机器学习(Machine learning)

在文本处理过程中,机器学习,通常根据标签,对文本进行分类处理。例如对电商评论的情感分析,分析这句话是积极的还是消极的。对邮件的识别,判断文本邮件是否是垃圾邮件等。简单来理解就是,我们已知特征化后的x1,x2,以及对应的标签y1,y2;现在给我们一个x3,我们通过机器学习就可以预测出y3的值。

自然语言处理 文本预处理 自然语言处理过程_人工智能_07

经过上面的介绍,想必大家已经基本了解文本处理的流程。那么,文本处理中,上面各步究竟是怎么实现的呢?贪多嚼不烂,小叮当下次再为大家继续分享~