特征选择

  特征选择可以理解为降维(点击查看文章),就是在样本的众多属性数据中选择部分属性或特征作为学习的数据,常见的特征选择分为过滤式、包裹式和嵌入式三类。一方面可以减轻后期学习的计算量,尽量避免维数灾难问题,另一方面,可以降低学习难度,毕竟维数减少后使用较少的维度更容易找到样本之间的关系。

1.过滤式选择

  指先对数据集进行特征选择,然后再训练学习器,而特征选择过程跟训练过程无关,相当于先用特征选择过程对初始样本的特征进行了过滤,然后使用过滤后的样本属性特征进行学习器的训练。常用Relief算法的思想是为样本的各属性计算统计分量,来选择分量值较大即具有较强分类能力的属性。

2.包裹式选择

  跟过滤式不同,包裹式选择直接把最终要使用的学习器也作为特征子集的评价标准,也可以理解为,包裹式特征选择的目的就是,为指定的学习器选择最优的特征子集。常见LVM算法的思想是针对一个学习器,选择随机选择一个特征子集跟当前的子集进行比较,如果新选的随机子集的误差更小,或者误差相同情况下特征数少,则用新的特征子集代替初始子集。

3.嵌入式选择

  跟前两者不同,嵌入式选择是将特征选择过程和学习器的训练过程融为一体,两者在同一个优化过程中同步完成,即在学习器训练过程中自动进行了特征选择。

稀疏学习

稀疏表示与字典学习

  对于样本数据的属性来讲,如果部分维度的属性值为0,或与当前学习任务无关,则可以在学习器的训练过程将这些属性去除或忽略,最终简化模型,而很多时候某一属性大多数样本为0,也有部分样本有值,因此无法将整个属性全部忽略,则可以通过稀疏矩阵的方式来表达当前属性,成为稀疏表示。另外,通常情况下并不知道哪些属性是可以忽略的,因此需要对样本的属性进行学习,来找到合适的字典,从而实现对样本属性的稀疏表示。
  在实际的应用中,稀疏表示和字典学习是同步进行的,因此其实际训练过程可以交替学习,即得到稀疏表示后进行字典学习,并在学习到字典集合后再进行稀疏优化,不断迭代直到达到预设的结束条件,比如字典数减少到预设的数量。

压缩感知

  前面稀疏表示是从样本属性自身实际的值进行表示,而压缩感知是在考虑,如何利用样本属性自身具有的稀疏性,从部分观测样本属性中恢复原始样本属性,主要分为感知测量重构恢复两个步骤。感知测量是考虑如何对原始属性进行稀疏表示,可以使用傅里叶变换,小波变换及前面的字典学习等;重构恢复是压缩感知的核心,考虑如何基于稀疏表示恢复到原始样本。