中文文本挖掘预处理流程总结
作者:刘建平
在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不
同,本文就对中文文本挖掘的预处理流程做一个总结。
1. 中文文本挖掘预处理特点
首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。
首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空
格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本挖掘的分词原理中,我们已
经讲到了中文的分词原理,这里就不多说。
第二,中文的编码不是utf8,而是unicode。这样会导致在分词的时候,和英文相比,我们要处理编码
的问题。
这两点构成了中文分词相比英文分词的一些不同点,后面我们也会重点讲述这部分的处理。当然,英文
分词也有自己的烦恼,这个我们在以后再讲。了解了中文预处理的一些特点后,我们就言归正传,通过
实践总结下中文文本挖掘预处理流程。
2. 中文文本挖掘预处理一:数据收集
在文本挖掘之前,我们需要得到文本数据,文本数据的获取方法一般有两种:使用别人做好的语料库和
自己用爬虫去在网上去爬自己的语料数据。
对于第一种方法,常用的文本语料库在网上有很多,如果大家只是学习,则可以直接下载下来使用,但
如果是某些特殊主题的语料库,比如"机器学习"相关的语料库,则这种方法行不通,需要我们自己用第
二种方法去获取。
2017-09-22 12:14 编程派
0 0 阅读 15