无监督特征选择算法
Filter方法
只使用数据的内在属性,不使用聚类等其他辅助方法
速度快
单变量
Information based methods
- SUD(Sequential backward selection method for Unsupervised Data)
- 基于距离相似度的熵值作为指标,进行相关性排序,选择特征
- SVD-Entropy
- 过其奇异值来测量原始数据矩阵的熵,评估每个特征对熵的贡献,并根据它们各自的熵值对特征进行排序。
- 三种选择最终特征子集的不同方法:简单排序、向前选择和向后消除
- Representation Entropy
- 表示熵是数据集中信息压缩的一种度量
Spectral-similarity based methods
拉普拉斯评分。在拉普拉斯算子中,特征的重要性通过其方差和局部保持能力来评估,在拉普拉斯算子中,特征的重要性通过其方差和局部保持能力来评估。
- SPEC (SPECtrum decomposition)
- USFSM (Unsupervised Spectral Feature Selection Method for mixed data)
多变量
Statistical/information based methods
- FSFS (Feature Selection using Feature Similarity)
- 将原始特征集划分成簇,使得同一簇中的特征高度相似,而不同簇中的特征不相似
- 计算每个特征的k-NN特征。然后,选择具有最紧凑子集的特征,并且丢弃其k-NN最近特征
- RRFS (Relevance Redundancy Feature Selection),
- 该方法分两步选择特征。在该方法中,首先,根据相关性度量对特征进行排序。然后,在第二步中,按照在前一步中生成的顺序,使用特征相似性度量来评估特征,以量化它们之间的冗余度。之后,选择冗余度最低的前p个特征。
Bio-inspired methods
- UFSACO (Unsupervised Feature Selection based on Ant Colony Optimization)
- 遗传算法优先选择高信息素值和低相似性,直到达到预先指定的停止标准(迭代次数)。最后,选择那些具有最高信息素值的特征
- MGSACO (Microarray Gene Selection based on Ant Colony Optimiza-
tion) - RR-FSACO (Relevance-Redundancy Feature Selection based on
ACO) - UPFS (Unsupervised Probabilistic Feature Selection using ant colony optimization)
Spectral/sparse learning methods
- mR-SP (minimum-Redundancy SPectral feature selection)
- 结合SPEC排序和最小冗余最优性准则的特征选择方法
- LLDA-RFE (Laplacian Linear Discriminant Analysis-based Recursive Feature Elimination)
- 该方法利用对象之间的相似性,将线性判别分析(LDA)扩展到无监督情况(LLDA)。其思路是递归地删除LLDA判别向量绝对值最小的特征,以识别可能揭示样本中聚类的特征。
- MCFS (Multi-Cluster Feature Selection)
- MRSF (Minimize the feature Redundancy for Spectral Feature selection)
- UDFS(Unsupervised Discriminative Feature Selection algorithm)
- 通过同时利用离散矩阵和特征相关性中包含的判别信息进行特征选择。
- NDFS (Nonnegative Discriminative Feature Selection)
- RUFS (Robust Unsupervised Feature Selection)
- 同时实现鲁棒聚类和鲁棒特征选择。
- SPNFSR (Structure-Preserving Non-negative Feature Self-Representation)
Wrapper方法
使用聚类算法评估特征子集
计算量较大
Sequential methods
- SS-SFS(Simplified Silhouette Sequential Forward Selection)
- 该方法根据简化轮廓准则选择质量最好的特征子集。在该方法中,使用前向选择搜索来生成特征子集。使用k-means聚类算法对每个特征子集进行聚类,并通过simplied-silhouette准则测量的聚类质量来评价特征子集的质量
Bio-inspired methods
- ELSA(evolutionary local selection algorithm)
- 一种基于k-means和高斯混合聚类算法的进化局部选择算法,来搜索特征子集和聚类数目
- multi-objective genetic algorithm (MOGA)
Iterative
- LLC-fs (Local Learning-based Clustering algorithm with feature selection)
- EUFS (Embedded Unsupervised Feature Selection)
- 通过稀疏学习将特征选择直接嵌入到聚类算法中
- DGUFS (Dependence Guided Unsupervised Feature Selection)
Hybrid方法
综合上面两种方法,在计算速度和模型效果之间做一个折衷
- BFK( a hybrid UFS method non-based on ranking)
- 该方法从包装器阶段开始,通过在用户指定的集群范围内的数据集上运行kmeans聚类算法。采用简化轮廓准则对聚类进行评价,并选取值最高的聚类。随后,在滤波阶段,利用马尔可夫方法,通过贝叶斯网络选择一个特征子集
常用用于分类和聚类的特征选择方法
不同领域的特征选择算法应用