《模式识别导论》特性选择与特征提取概要
- 1 基本概念
- 问题1 什么是特征
- 问题2 为什么要提取特征
- 问题3 为什么要进行特征选择
- 1. 两种数据测量情况
- 2. 对特征的要求
- 3. 特征选择和特征提取的异同
- 2 类别可分性测度
- 2.1 基于距离的可分性测度
- 1.类内距离和类内散布矩阵
- 2.类间距离和类间散布矩阵
- 3.多类模式向量间的距离和总体散布矩阵
- 2.2 基于概率分布的可分性判据
- 3 基于类内散布矩阵的单类模式特征提取
- 3.1 根据类内散布矩阵确定变换矩阵
- 3.2 特征提取步骤
- 4 基于K-L变换的多类模式特征提取
- 利用自相关矩阵R做K-L变换进行特征提取
- K-L变换的不足之处
- 5 特征选择
- 参考文献
1 基本概念
- 在模式识别过程中,首先要找出一些最具代表性的特征,然后才能依据这些特征去识别。特征选择和特征提取是识别分类和分类器设计之前的工作。
- 在机器识别中,特征选择和特征提取将实际的物理实体抽象成数学模型,以特征向量的形式为后续工作提供数据。
- 特征向量的一个分量代表被识别对象的一个特征。同一类模式之间的相似性以及不同模式之间的差异性主要体现在这些分量所表示的特征上。
问题1 什么是特征
问题2 为什么要提取特征
问题3 为什么要进行特征选择
在设计模式识别系统时,首先要用各种可能的手段对识别对象的性质做各种测量,这个最初的数据采集就是特征抽取,所获得的原始数据是特征选择和特征提取的依据。
1. 两种数据测量情况
(1)样本数量的限制
由于测量上可实现性的限制或经济上的考虑,所获得的测量值为数不多。
(2)样本的属性是高度冗余的–维度灾难
特征维数灾难:能获得的性质(测量值)很多,如果全部作为分类特征,耗时耗力,且分类效果不一定好。
特征选择和特征提取的目的
经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作既快又准确。
2. 对特征的要求
(1)具有很大的识别信息量,即所提供的特征应具有很好的可分性,使分类器容易判别。
(2)具有可靠性。对那些模棱两可,似是而非或时是时非的、不易判别的特征应该丢弃。
(3)尽可能强的独立性。重复、相关性强的特征只选一个,因为强的相关性并没有增加更多的分类信息,实质上也是重复的。
(4)数量尽量少,损失的信息尽可能少。通常特征数量小于样本数量。
什么是好的特征
当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。
特征维度的大小
特征的多少依赖于任务复杂度和样本数量;例如在深度学习中,特征维度与网络深度有关、与任务有关;特征太少时,难以实现数据分类,特征太多时,存在冗余和计算复杂问题。实际上目前深度学习不考虑特征的维度
问题。
3. 特征选择和特征提取的异同
(1)特征选择:从L个度量值集合中按一定的准则选出供分类用的子集,作为降维的分类特征(m维,m<L)。
(2)特征提取:使一组度量值通过某种变换,产生新的m个特征,其中
(3)异同点:通常特征提取优于特征选择。特征选择是挑选
出较少的特征用于分类,特征提取通过数学变换
产生较少的特征。
2 类别可分性测度
类别可分性测度(measure):衡量类别间可分性的尺度(scale)
2.1 基于距离的可分性测度
1.类内距离和类内散布矩阵
类内距离:同一类模式点集内,各样本之间的均方距离。
平方形式:,都是中任意两个n维样本。
若中得样本相互独立,则上式可以表示为
条件:若中样本相互独立
R:该类模式分布的自相关矩阵
M:均值向量
C:协方差矩阵
:C主对角线上的元素,表示模式向量第K个分量的方差
tr:矩阵的迹(方阵主对角线上各元素之和)
类内散布矩阵:
- 各样本点围绕它们的均值的散布情况(针对高维数据而言)
- 特征选择和提取的结果应使类内散布矩阵的迹越小越好
协方差矩阵
协方差矩阵表示的是维度之间的相关性,不是样本之间的相关性,协方差矩阵一定是方阵,其大小为d*d,d表示样本的属性维度,主对角线元素表示方差,其余表示协方差。
设为n维随机变量,称矩阵
类内散布矩阵
类内散布矩阵表示各样本点围绕它们的均值的散布情况—该类分布的协方差矩阵。
类内散布矩阵意味着类内协方差矩阵,类内散布矩阵的迹(方差)越小,意味着类内方差较小数据样本越集中,越有利于分类
。
特征选择和提取的结果应使类内散布矩阵的迹越小越好
。
求同存异,挖掘共性
2.类间距离和类间散布矩阵
类间距离
模式类之间的距离,记为,类间距离的平方形式定义为每类模式均值向量
与模式总体均值向量
之间平方距离的先验概率加权和。
:类的先验概率
:类的均值向量
:所有c类模式的总体均值向量
类间散布矩阵
表示c类模式在空间的散布情况,记为。
最终的矩阵仍然为d*d,不同之处在于类内散布矩阵根据类内样本计算,而类间散布矩阵根据各类的均值向量计算。
结论1
类内散布矩阵的迹愈小愈有利于分类。
结论2
类间距离越大说明不同样本类之间的距离越大,分布越分散,更加有利于分类。因此类间散布矩阵的迹愈大愈有利于分类。
3.多类模式向量间的距离和总体散布矩阵
(1)两类情况的距离
设类中有q各样本,类中有p个样本,共有个距离。
(2)多类情况的距离
多类模式向量间的平均平方距离
多类模式向量之间的平方距离=各类平方距离的先验概率加权和
(3)多类情况的散布矩阵
多类类间散布矩阵
多类类内散布矩阵
(4)多类模式平均平方距离与总体散布矩阵的关系
除了这种平均平方距离判据,实际上还可以定义一系列类似的基于类内类间距离的判据,常见的有:
2.2 基于概率分布的可分性判据
缺陷:基于距离的可分性判据只考虑距离的定义方法,不考虑样本的分布。这种方法在理论上很难建立起它们与错误率的联系
。
完全可分
有重叠
完全不可分
概率距离
概率距离用分布密度的交叠程度表示:
- 当两类完全不交叠时,取最大值,即对所有x有时,,则取最大值
- 当两类分布密度相同时,应为0,即若,则,都可用来作为类分离线的概率距离度量。
两类概率距离
Bhattacharyya距离:
当两类完全不交叠时;当两类分布密度相同时,。
Chernoff界限:
其中,s是[0,1]区间内的一个参数,当s=0.5时,Chernoff界限与Bhattacharyya距离相同。
散度
散度是描述空气从周围汇合到某一处或从某一处流散开来程度的量。水平散度是气体在单位时间内水平面积的变化率。如果面积增大,散度取正值,为水平辐散;如果面积缩小,散度取负值,为水平辐合。
结论:数据越分散则散度越大,对应的方差越大,则散度越大越有利于分类。
3 基于类内散布矩阵的单类模式特征提取
对于某类模式而言,特征提取的目的就是通过一种变换压缩模式向量的维数。
3.1 根据类内散布矩阵确定变换矩阵
- 经过变换之后,类模式的协方差矩阵为一对角阵,即的各个分量不相关,便于特征的取舍。并且的第k个分量的方差等于未变换时类协方差矩阵C的特征值。
- 在新空间中,类的类内距离同原空间一样,保持不变。
3.2 特征提取步骤
设为类的样本集,为n维向量
(1)根据样本集求类的协方差矩阵,即类内散布矩阵。设样本集中共有N个样本,则
(2)计算C的特征值,对特征值从小到大排序,选择前m个。
(3)计算前m个特征值对应的特征向量,并归一化处理得到,将归一化的特征向量作为矩阵A的行。
(4)利用A对样本集进行变换。
则m维(m<n)模式向量就是作为分类用的模式向量。
4 基于K-L变换的多类模式特征提取
在多类模式分类中,特征提取的目的不仅是压缩维数,而且要保留类别间的鉴别信息,突出类别间的可分性。K-L变换以最小均方误差为准则进行数据压缩,是最小误差意义下的最优正则变换。K-L变换是一种常用的特征提取方法,适用于任何概率密度函数,在消除模式特征之间的相关性、突出差异性方面有最优的效果。
利用自相关矩阵R做K-L变换进行特征提取
设X是n维模式向量,是来自M个模式类的样本集,总样本数目为N。利用自相关矩阵R进行K-L变换,将X变换为d维(d<n)向量的具体方法如下。
(1)求样本集的总体自相关矩阵R。
(2)求R的特征值。对特征值由大到小进行排队,选择前d个较大的特征值。
(3)计算d个特征值对应的特征向量,归一化后记为,由构成变换矩阵U。
(4)对样本集中的每个X进行K-L变换,设变换后的向量为,则
d维向量就是代替n维向量X进行分类的模式向量。
K-L变换的不足之处
(1)对于两类问题容易得到较满意的结果,但类别愈多,效果愈差。
(2)采用K-L变换需要通过足够多的样本,估计样本集的协方差矩阵或其他类型的散布矩阵。当样本数不足时,矩阵的估计会变得十分粗略,变换的优越性也就不能充分的显示出来。
(3)计算矩阵的特征值和特征向量缺乏统一的快速算法。
5 特征选择
参考文献
- 齐敏等《模式识别导论》清华大学出版社