【文本分类】混合CHI和MI的改进文本特征选择方法

原创

征途黯然2 2023-01-16 23:21:36 博主文章分类：自然语言处理 ©著作权

©著作权归作者所有：来自51CTO博客作者征途黯然2的原创作品，请联系作者获取转载授权，否则将追究法律责任

摘要：改进CHI算法、改进MI算法，结合改进CHI+改进MI，应用于文本的特征选择，提高了精度。
参考文献：[1]王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018,28(04):87-90+94.

一、引言

通过特征选择方法，降低特征向量的维数，减少分类算法的运行时间，从而最终提高分类准确度。常用的特征选择算法有：文档频率DF、互信息MI、卡方检验CHI、信息增益IG。

参考此篇博客的2.1小节：【文本分类】基于改进CHI和PCA的文本特征选择

互信息的概念出自信息论中，原本互信息用来衡量两个信号间的关联程度。在文本分类中，表现为特征与类别之间的关联程度。

【文本分类】混合CHI和MI的改进文本特征选择方法_CHI

从CHI算法的缺点出发：传统 CHI 统计方法只考虑了特征词在所有文档集中出现的文档数量，而没有考虑特征词在某一篇文档中出现的次数，从而夸大了低频词的作用。所以引入词频因子：

【文本分类】混合CHI和MI的改进文本特征选择方法_CHI_02

从MI算法的缺点出发：没有考虑特征本身出现的频度，这会造成 MI 方法在评估特征时会倾向于选择一些低频特征。

通过引入β，添加词频信息，适当增加中高频特征所占比重，降低低频特征的互信息值，避免互信息方法选择过多的低频特征，从而降低低频词对互信息方法的负效用。

【文本分类】混合CHI和MI的改进文本特征选择方法_互信息_03

不同类别之间，特征的词频也代表了不同的类别区分能力。一个区分能力强的特征词，应该集中分布在某些特定的类别中，也就是不同类别中的特征词频的方差应该尽可能大，这样的特征含有更多的类别区分信息为此，引入不同类别间特征的词频的方差对 MI 方法进行优化。

【文本分类】混合CHI和MI的改进文本特征选择方法_混合CHMI_04

最终改进后的CHMI算法公式为：

【文本分类】混合CHI和MI的改进文本特征选择方法_CHI_05

根据以下5种方法：

（1）普通CHI算法来选择特征
（2）改良ICHI算法来选择特征
（3）普通MI算法来选择特征
（4）改良MI算法来选择特征
（5）混合CHMI算法来选择特征

比较不同算法之间，文本分类的准确率。

数据来源于 https://github.com/cystanford/text_classification 。数据集共包含四个类别，分别为“女性”，“体育”，“文学”，“校园”，原始数据集已经划分了测试集和训练集，并给出了停用词文档。