机器学习基础之特征选择和稀疏学习

转载

wx5ec286973f886 2021-07-09 10:12:43

文章标签 人工智能读后感人工智能技术机器学习特征选择 文章分类 机器学习人工智能

文章目录

特征选择
稀疏学习
- 稀疏表示与字典学习
- 压缩感知

特征选择

特征选择可以理解为降维（点击查看文章），就是在样本的众多属性数据中选择部分属性或特征作为学习的数据，常见的特征选择分为过滤式、包裹式和嵌入式三类。一方面可以减轻后期学习的计算量，尽量避免维数灾难问题，另一方面，可以降低学习难度，毕竟维数减少后使用较少的维度更容易找到样本之间的关系。

1.过滤式选择

指先对数据集进行特征选择，然后再训练学习器，而特征选择过程跟训练过程无关，相当于先用特征选择过程对初始样本的特征进行了过滤，然后使用过滤后的样本属性特征进行学习器的训练。常用Relief算法的思想是为样本的各属性计算统计分量，来选择分量值较大即具有较强分类能力的属性。

2.包裹式选择

跟过滤式不同，包裹式选择直接把最终要使用的学习器也作为特征子集的评价标准，也可以理解为，包裹式特征选择的目的就是，为指定的学习器选择最优的特征子集。常见LVM算法的思想是针对一个学习器，选择随机选择一个特征子集跟当前的子集进行比较，如果新选的随机子集的误差更小，或者误差相同情况下特征数少，则用新的特征子集代替初始子集。

3.嵌入式选择

跟前两者不同，嵌入式选择是将特征选择过程和学习器的训练过程融为一体，两者在同一个优化过程中同步完成，即在学习器训练过程中自动进行了特征选择。

稀疏学习

稀疏表示与字典学习

对于样本数据的属性来讲，如果部分维度的属性值为0，或与当前学习任务无关，则可以在学习器的训练过程将这些属性去除或忽略，最终简化模型，而很多时候某一属性大多数样本为0，也有部分样本有值，因此无法将整个属性全部忽略，则可以通过稀疏矩阵的方式来表达当前属性，成为稀疏表示。另外，通常情况下并不知道哪些属性是可以忽略的，因此需要对样本的属性进行学习，来找到合适的字典，从而实现对样本属性的稀疏表示。
在实际的应用中，稀疏表示和字典学习是同步进行的，因此其实际训练过程可以交替学习，即得到稀疏表示后进行字典学习，并在学习到字典集合后再进行稀疏优化，不断迭代直到达到预设的结束条件，比如字典数减少到预设的数量。

压缩感知

前面稀疏表示是从样本属性自身实际的值进行表示，而压缩感知是在考虑，如何利用样本属性自身具有的稀疏性，从部分观测样本属性中恢复原始样本属性，主要分为感知测量和重构恢复两个步骤。感知测量是考虑如何对原始属性进行稀疏表示，可以使用傅里叶变换，小波变换及前面的字典学习等；重构恢复是压缩感知的核心，考虑如何基于稀疏表示恢复到原始样本。