特征选择

如果特征参数不足,则很容易引发数据重叠的现象,所有分类器都将不起作用;如果特征参数太多,则可能会消耗大量时间和计算资源。特征选择可以通过消除冗余的特征来提高分类算法的准确性,并减少其计算复杂度。特征选择解决的实际问题是:当存在大量特征参数时,将对分类、回归等问题贡献度高的特征参数选择出来,而舍弃一些贡献度低的特征参数。因此,特征参数选择的困难在于其核心是解决复杂的组合优化问题。

2.3.1 故障特征优选准则

(1)去除无关特征,无关特征对模型的构建没有贡献且会增加模型的复杂度。

(2)去除冗余特征,特征参数之间存在相关性,如一个特征可由一个或多个特征推演出来,则该特征为冗余特征。或者该特征不会给模型提供新的信息,则该特征也为冗余特征,去除冗余特征可提高模型运行效率,使模型具有更好的性能。

2.3.2 故障特征优选数学模型

本文选取的故障特征优选算法为Relieff选择算法。Kononeill在1994年提出了该算法,Relieff算法能够直接对多分类问题中的参数进行选择,搜索当前样本的各种近邻,然后综合计算。Relief算法的原理是根据各个特征和类别的相关性赋予特征不同的权重,其本质是一个矢量,而特征参数的权重是各特征的统计量指标之和,权重小于某个阈值的特征将被移除。特征的权重越大,表示该特征对分类贡献度越高,反之,表示该特征对分类贡献度越低。选取对分类贡献度高的特征组成特征参数子集,即可优化选取特征。Relieff算法的主要过程如下:

Reludnn特征重要性 relieff特征选择_机器学习


Reludnn特征重要性 relieff特征选择_算法_02

(4)重复以上步骤m次,更新各特征的统计量指标。
可见,权值计算主要根据是:如果特征对分类有贡献,该特征在同类中的值应相近,而在不同分类中的值应不相近。
(5)最后可以根据统计量指标从大到小排序,选择排序靠前的特征得到合适的特征集合。
由于Relieff算法运算时间的增长与采样数和初始特征数量的增加呈线性关系,因此具有很高的运行效率。该算法不受数据类型的影响,全局搜索更优,运算效率更高。故本文在进行特征参数选取时,使用Relieff算法来减少特征参数数量,缩短模型训练时间,提高类别区分的准确率。

Reludnn特征重要性 relieff特征选择_Reludnn特征重要性_03

其中详细介绍了relieff算法的使用,下图摘自官方文档

Reludnn特征重要性 relieff特征选择_机器学习_04