主成分分析(Principal Component Analysis, PCA )是一种利用线性映射来进行数据降维的方法,并去除数据的相关性; 且最大限度保持原始数据的方差信息
线性映射,去相关性,方差保持
线性映射
相当于加权求和,每一组权重系数为一个主成份,它的维数跟输入数据维数相同
相当于点积
F的几何意义表示为x在投影方向u上的投影点。
主成分分析的计算方式
X是p维(列)向量,主成份分析就是要把这p维原始向量通过线性映射变成K维新向量的过程.(k≤p)
这里的u为\(k \times p\)的矩阵
主成分分析
主成分分析最早用于经济学,经济学家通过降维利用3维向量能够保持原始17维向量,97.4%的方差信息
核心提示是在低维空间能够尽可能多保持原始空间数据的方差
数据集合中各数据与平均样本的差的平方和的平均数叫做样本方差
主成份分析试图在力保数据信息丢失最少的原则下,对高维空间的数据降维处理。
很显然,识别系统在一个低维空间要比在一个高维空间容易得多。
能够去除数据的相关性,从而进行有效的特征提取
方差越大,数据的分布越分散,从而越能保持原 始空间中的距离信息
如上图所示,原始数据空间中,类别信息没有丢失,但是维度减少50%
数学模型
数学可行性推导
若A是p阶正定或者半正定实阵,则一定可以找到正交阵U,使
若上述矩阵的特征根所对应的单位特征向量为
则实对称阵 A属于不同特征根所对应的特征向量是正交的,即有\(U^{T}U=UU^{t}=I\)
主成分分析的数学推导
数学推导见笔记
核主成分分析
主成分分析(Principal Components Analysis, PCA)适用于数据的线性降维。而核主成分分析(Kernel PCA, KPCA)可实现数据的非线性降维,用于处理线性不可分的数据集。
设X=\([x_1,...,x_n]\),中\(x_1...x_N\)都是k维列向量,表示一个样本,共N个样本
现在用一非线性映射\(\phi\)将X中的向量x映射到高维空间(D维)
这个高维空间成为特征空间,记为。\(\digamma\)
将矩阵\(X\)中所有样本都映射到特征空间上,得到\(D \times N\)的新矩阵。
接下来用新矩阵进行PCA降维,我们将新矩阵中心化
在PCA中,样本\(X\)的协方差矩阵为\(\frac{1}{N}X^{T}X\),此时特征空间中的协方差矩阵为
对于求解该主成分分析特征值的问题,由于映射是不可知的,所以不能直接求解\(\phi(X)\phi(X)^{T}\)。所以要使用其他方法求解
\(\sum_xp = \lambda p\),得出\(\sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T}p= \lambda p\),两边除以\(\lambda\)得,
中括号内为标量,所以表示\(\lambda \neq 0\)时,对应得特征向量p可以表示为所有\(\phi(x_i)\)的线性组合。
\(p = \sum_{i=1}^{N}a_i\phi(x_i)=\phi(X)\alpha\)
其中\(\alpha\)为N维列向量\(\alpha = [\alpha_1,\alpha_2,...,\alpha_N]^T\)
带回到(4)式
两边左乘\([\phi(X)^{T}]\),得
定义矩阵\(K =[\phi(X)]^{T}\phi(X)\),则K为\(N \times N\)的半对称正定矩阵,其\(i\)行\(j\)列的元素为\(K_{ij}= \phi(x_i)^{T}[\phi(x_j)]\)
将K带入,得:
即为
因为矩阵K的元素可由\(K_{ij} = \phi(x)^{T}[\phi(x_j)]\)计算得到,不需要显式定义映射\(\phi(x)\),只需要定义特征空间中向量的点积,就是核技巧。
定义核函数\(k(x,y)=\phi(x)^{T}\phi(y)\)。
核技巧的核心就是通过定义核函数点积而不是定义映射。
常用核函数
多项式核
\(k(x,y)=(ax^{T}+c)^{d}\)
高斯核
\(k(x,y)=exp(-\frac{||x-y||^{2}}{2\sigma^2})=exp(-\gamma||x-y||^{2})\)
sigmond核
\(k(x,y)=tanh(aX^{T}y+r)\)