模式识别线性回归方法模式识别特征分析理论

转载

mob64ca140fd7c1 2024-05-20 23:07:31

文章标签 模式识别线性回归方法模式识别机器学习特征提取特征选择 文章分类 机器学习人工智能

《模式识别导论》特性选择与特征提取概要

1 基本概念

问题1 什么是特征
问题2 为什么要提取特征
问题3 为什么要进行特征选择
1. 两种数据测量情况
2. 对特征的要求
3. 特征选择和特征提取的异同

2 类别可分性测度

2.1 基于距离的可分性测度

1.类内距离和类内散布矩阵
2.类间距离和类间散布矩阵
3.多类模式向量间的距离和总体散布矩阵

2.2 基于概率分布的可分性判据

3 基于类内散布矩阵的单类模式特征提取

3.1 根据类内散布矩阵确定变换矩阵
3.2 特征提取步骤

4 基于K-L变换的多类模式特征提取

利用自相关矩阵R做K-L变换进行特征提取
K-L变换的不足之处

5 特征选择
参考文献

1 基本概念

在模式识别过程中，首先要找出一些最具代表性的特征，然后才能依据这些特征去识别。特征选择和特征提取是识别分类和分类器设计之前的工作。
在机器识别中，特征选择和特征提取将实际的物理实体抽象成数学模型，以特征向量的形式为后续工作提供数据。
特征向量的一个分量代表被识别对象的一个特征。同一类模式之间的相似性以及不同模式之间的差异性主要体现在这些分量所表示的特征上。

问题1 什么是特征

问题2 为什么要提取特征

问题3 为什么要进行特征选择

在设计模式识别系统时，首先要用各种可能的手段对识别对象的性质做各种测量，这个最初的数据采集就是特征抽取，所获得的原始数据是特征选择和特征提取的依据。

1. 两种数据测量情况

（1）样本数量的限制
由于测量上可实现性的限制或经济上的考虑，所获得的测量值为数不多。

（2）样本的属性是高度冗余的–维度灾难
特征维数灾难：能获得的性质（测量值）很多，如果全部作为分类特征，耗时耗力，且分类效果不一定好。

特征选择和特征提取的目的

经过选择或变换，组成识别特征，尽可能保留分类信息，在保证一定分类精度的前提下，减少特征维数，使分类器的工作既快又准确。

2. 对特征的要求

（1）具有很大的识别信息量，即所提供的特征应具有很好的可分性，使分类器容易判别。
（2）具有可靠性。对那些模棱两可，似是而非或时是时非的、不易判别的特征应该丢弃。
（3）尽可能强的独立性。重复、相关性强的特征只选一个，因为强的相关性并没有增加更多的分类信息，实质上也是重复的。
（4）数量尽量少，损失的信息尽可能少。通常特征数量小于样本数量。

什么是好的特征
当模式在空间中发生移动、旋转、缩放时，特征值应保持不变，保证仍可得到同样的识别效果。

特征维度的大小
特征的多少依赖于任务复杂度和样本数量；例如在深度学习中，特征维度与网络深度有关、与任务有关；特征太少时，难以实现数据分类，特征太多时，存在冗余和计算复杂问题。实际上目前深度学习不考虑特征的维度问题。

3. 特征选择和特征提取的异同

（1）特征选择：从L个度量值集合 $模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法$ 中按一定的准则选出供分类用的子集，作为降维的分类特征（m维，m<L）。

（2）特征提取：使一组度量值 $模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法$ 通过某种变换 $模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_03$ ，产生新的m个特征 $模式识别线性回归方法模式识别特征分析理论_特征选择_04$ ，其中 $模式识别线性回归方法模式识别特征分析理论_模式识别_05$

（3）异同点：通常特征提取优于特征选择。特征选择是挑选出较少的特征用于分类，特征提取通过数学变换产生较少的特征。

2 类别可分性测度

类别可分性测度（measure）：衡量类别间可分性的尺度（scale）
$模式识别线性回归方法模式识别特征分析理论_模式识别_06$

2.1 基于距离的可分性测度

1.类内距离和类内散布矩阵

类内距离：同一类模式点集内，各样本之间的均方距离。
平方形式： $模式识别线性回归方法模式识别特征分析理论_特征提取_07$ ， $模式识别线性回归方法模式识别特征分析理论_机器学习_08$ 都是 $模式识别线性回归方法模式识别特征分析理论_机器学习_09$ 中任意两个n维样本。

若 $模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_10$ 中得样本相互独立，则上式可以表示为

$模式识别线性回归方法模式识别特征分析理论_模式识别_11$

条件：若 $模式识别线性回归方法模式识别特征分析理论_机器学习_09$ 中样本相互独立
R：该类模式分布的自相关矩阵
M：均值向量
C：协方差矩阵
$模式识别线性回归方法模式识别特征分析理论_模式识别_13$ ：C主对角线上的元素，表示模式向量第K个分量的方差
tr：矩阵的迹（方阵主对角线上各元素之和）

类内散布矩阵：

各样本点围绕它们的均值的散布情况（针对高维数据而言）
特征选择和提取的结果应使类内散布矩阵的迹越小越好

协方差矩阵

协方差矩阵表示的是维度之间的相关性，不是样本之间的相关性，协方差矩阵一定是方阵，其大小为d*d，d表示样本的属性维度，主对角线元素表示方差，其余表示协方差。

设 $模式识别线性回归方法模式识别特征分析理论_模式识别_14$ 为n维随机变量，称矩阵
$模式识别线性回归方法模式识别特征分析理论_机器学习_15$

类内散布矩阵

类内散布矩阵表示各样本点围绕它们的均值的散布情况—该类分布的协方差矩阵。

类内散布矩阵意味着类内协方差矩阵，类内散布矩阵的迹（方差）越小，意味着类内方差较小数据样本越集中，越有利于分类。

特征选择和提取的结果应使类内散布矩阵的迹越小越好。

求同存异，挖掘共性

2.类间距离和类间散布矩阵

类间距离

模式类之间的距离，记为 $模式识别线性回归方法模式识别特征分析理论_特征提取_16$ ，类间距离的平方形式定义为每类模式均值向量与模式总体均值向量之间平方距离的先验概率加权和。

$模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_17$

$模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_18$ ： $模式识别线性回归方法模式识别特征分析理论_特征选择_19$ 类的先验概率
$模式识别线性回归方法模式识别特征分析理论_模式识别_20$ ： $模式识别线性回归方法模式识别特征分析理论_特征选择_19$ 类的均值向量
$模式识别线性回归方法模式识别特征分析理论_模式识别_22$ ：所有c类模式的总体均值向量

类间散布矩阵
表示c类模式在空间的散布情况，记为 $模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_23$ 。
$模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_24$

最终的矩阵仍然为d*d，不同之处在于类内散布矩阵根据类内样本计算，而类间散布矩阵根据各类的均值向量计算。

结论1

类内散布矩阵的迹愈小愈有利于分类。

结论2

类间距离越大说明不同样本类之间的距离越大，分布越分散，更加有利于分类。因此类间散布矩阵的迹愈大愈有利于分类。

3.多类模式向量间的距离和总体散布矩阵

（1）两类情况的距离
设 $模式识别线性回归方法模式识别特征分析理论_模式识别_25$ 类中有q各样本， $模式识别线性回归方法模式识别特征分析理论_模式识别_26$ 类中有p个样本，共有 $模式识别线性回归方法模式识别特征分析理论_模式识别_27$ 个距离。
$模式识别线性回归方法模式识别特征分析理论_模式识别_28$
$模式识别线性回归方法模式识别特征分析理论_模式识别_29$
$模式识别线性回归方法模式识别特征分析理论_机器学习_30$

（2）多类情况的距离
多类模式向量间的平均平方距离 $模式识别线性回归方法模式识别特征分析理论_特征选择_31$
$模式识别线性回归方法模式识别特征分析理论_机器学习_32$

$模式识别线性回归方法模式识别特征分析理论_模式识别_33$

$模式识别线性回归方法模式识别特征分析理论_特征选择_34$

$模式识别线性回归方法模式识别特征分析理论_特征提取_35$

$模式识别线性回归方法模式识别特征分析理论_特征提取_36$

$模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_37$

$模式识别线性回归方法模式识别特征分析理论_机器学习_38$

$模式识别线性回归方法模式识别特征分析理论_特征提取_39$

$模式识别线性回归方法模式识别特征分析理论_机器学习_40$

$模式识别线性回归方法模式识别特征分析理论_特征选择_41$

$模式识别线性回归方法模式识别特征分析理论_机器学习_42$

多类模式向量之间的平方距离=各类平方距离的先验概率加权和

$模式识别线性回归方法模式识别特征分析理论_特征选择_43$

（3）多类情况的散布矩阵

多类类间散布矩阵

$模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_24$

多类类内散布矩阵

$模式识别线性回归方法模式识别特征分析理论_特征提取_45$

（4）多类模式平均平方距离与总体散布矩阵的关系

$模式识别线性回归方法模式识别特征分析理论_特征提取_46$

除了这种平均平方距离判据，实际上还可以定义一系列类似的基于类内类间距离的判据，常见的有：

$模式识别线性回归方法模式识别特征分析理论_模式识别_47$

$模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_48$

$模式识别线性回归方法模式识别特征分析理论_模式识别_49$

$模式识别线性回归方法模式识别特征分析理论_机器学习_50$

2.2 基于概率分布的可分性判据

缺陷：基于距离的可分性判据只考虑距离的定义方法，不考虑样本的分布。这种方法在理论上很难建立起它们与错误率的联系。

完全可分

$模式识别线性回归方法模式识别特征分析理论_特征提取_51$

模式识别线性回归方法模式识别特征分析理论_特征选择_52

有重叠

$模式识别线性回归方法模式识别特征分析理论_模式识别_53$

模式识别线性回归方法模式识别特征分析理论_特征选择_54

完全不可分

$模式识别线性回归方法模式识别特征分析理论_特征提取_55$

模式识别线性回归方法模式识别特征分析理论_特征选择_56

概率距离

概率距离用分布密度的交叠程度表示：

$模式识别线性回归方法模式识别特征分析理论_特征选择_57$

$模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_58$
当两类完全不交叠时， $模式识别线性回归方法模式识别特征分析理论_机器学习_59$ 取最大值，即对所有x有 $模式识别线性回归方法模式识别特征分析理论_模式识别_60$ 时， $模式识别线性回归方法模式识别特征分析理论_特征选择_61$ ，则 $模式识别线性回归方法模式识别特征分析理论_机器学习_59$ 取最大值
当两类分布密度相同时， $模式识别线性回归方法模式识别特征分析理论_机器学习_59$ 应为0，即若 $模式识别线性回归方法模式识别特征分析理论_模式识别_64$ ，则 $模式识别线性回归方法模式识别特征分析理论_模式识别_65$ ，都可用来作为类分离线的概率距离度量。

两类概率距离

Bhattacharyya距离：

$模式识别线性回归方法模式识别特征分析理论_模式识别_66$

当两类完全不交叠时 $模式识别线性回归方法模式识别特征分析理论_特征提取_67$ ；当两类分布密度相同时， $模式识别线性回归方法模式识别特征分析理论_模式识别线性回归方法_68$ 。

Chernoff界限：

$模式识别线性回归方法模式识别特征分析理论_特征选择_69$

其中，s是[0,1]区间内的一个参数，当s=0.5时，Chernoff界限与Bhattacharyya距离相同。

散度

散度是描述空气从周围汇合到某一处或从某一处流散开来程度的量。水平散度是气体在单位时间内水平面积的变化率。如果面积增大，散度取正值，为水平辐散；如果面积缩小，散度取负值，为水平辐合。

结论：数据越分散则散度越大，对应的方差越大，则散度越大越有利于分类。

3 基于类内散布矩阵的单类模式特征提取

对于某类模式而言，特征提取的目的就是通过一种变换压缩模式向量的维数。
$模式识别线性回归方法模式识别特征分析理论_机器学习_70$
$模式识别线性回归方法模式识别特征分析理论_模式识别_71$

3.1 根据类内散布矩阵确定变换矩阵

经过变换之后， $模式识别线性回归方法模式识别特征分析理论_特征提取_72$ 类模式的协方差矩阵为一对角阵，即 $模式识别线性回归方法模式识别特征分析理论_特征提取_73$ 的各个分量不相关，便于特征的取舍。并且 $模式识别线性回归方法模式识别特征分析理论_特征提取_73$ 的第k个分量的方差等于未变换时 $模式识别线性回归方法模式识别特征分析理论_特征提取_72$ 类协方差矩阵C的特征值。
在新空间中， $模式识别线性回归方法模式识别特征分析理论_特征提取_72$ 类的类内距离同原空间一样，保持不变。