主成分分析

转载

mb5ff409fbbe221 2021-10-28 11:21:00

文章标签 主成分分析数据方差特征空间数据降维 文章分类 代码人生

主成分分析（Principal Component Analysis, PCA ）是一种利用线性映射来进行数据降维的方法，并去除数据的相关性; 且最大限度保持原始数据的方差信息

线性映射，去相关性，方差保持

线性映射

\[F = \sum_{i=1}^{p}u_iX_i = u^{T}X \]

相当于加权求和，每一组权重系数为一个主成份,它的维数跟输入数据维数相同

相当于点积

F的几何意义表示为x在投影方向u上的投影点。

主成分分析的计算方式

X是p维（列）向量，主成份分析就是要把这p维原始向量通过线性映射变成K维新向量的过程.(k≤p）

主成分分析_方差

这里的u为\(k \times p\)的矩阵

主成分分析

主成分分析最早用于经济学，经济学家通过降维利用3维向量能够保持原始17维向量，97.4%的方差信息

核心提示是在低维空间能够尽可能多保持原始空间数据的方差

数据集合中各数据与平均样本的差的平方和的平均数叫做样本方差

主成份分析试图在力保数据信息丢失最少的原则下，对高维空间的数据降维处理。
很显然，识别系统在一个低维空间要比在一个高维空间容易得多。
能够去除数据的相关性，从而进行有效的特征提取

主成分分析_数据降维_02

方差越大，数据的分布越分散，从而越能保持原始空间中的距离信息

如上图所示，原始数据空间中,类别信息没有丢失，但是维度减少50%

数学模型

主成分分析_数据降维_03

主成分分析_主成分分析_04

数学可行性推导

若A是p阶正定或者半正定实阵，则一定可以找到正交阵U，使

主成分分析_数据降维_05

若上述矩阵的特征根所对应的单位特征向量为

主成分分析_数据降维_06

则实对称阵 A属于不同特征根所对应的特征向量是正交的，即有\(U^{T}U=UU^{t}=I\)

主成分分析的数学推导

数学推导见笔记

核主成分分析

主成分分析(Principal Components Analysis, PCA)适用于数据的线性降维。而核主成分分析(Kernel PCA, KPCA)可实现数据的非线性降维，用于处理线性不可分的数据集。

设X=\([x_1,...,x_n]\)，中\(x_1...x_N\)都是k维列向量，表示一个样本，共N个样本

现在用一非线性映射\(\phi\)将X中的向量x映射到高维空间（D维）

\[\phi(x):R^{k} \rightarrow R^{D}, D>>k \]

这个高维空间成为特征空间，记为。\(\digamma\)

将矩阵\(X\)中所有样本都映射到特征空间上，得到\(D \times N\)的新矩阵。

接下来用新矩阵进行PCA降维，我们将新矩阵中心化

在PCA中，样本\(X\)的协方差矩阵为\(\frac{1}{N}X^{T}X\)，此时特征空间中的协方差矩阵为

\[C_{\digamma} = \frac{1}{N}\phi(X)[\phi(X)^{T}] = \frac{1}{N} \sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T} \]

对于求解该主成分分析特征值的问题，由于映射是不可知的，所以不能直接求解\(\phi(X)\phi(X)^{T}\)。所以要使用其他方法求解

\(\sum_xp = \lambda p\)，得出\(\sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T}p= \lambda p\)，两边除以\(\lambda\)得，

\[p = \frac{1}{\lambda}\sum_{i=1}^{N}(\phi(x_i)[\phi(x_i)^{T}p]) \]

中括号内为标量，所以表示\(\lambda \neq 0\)时，对应得特征向量p可以表示为所有\(\phi(x_i)\)的线性组合。

\(p = \sum_{i=1}^{N}a_i\phi(x_i)=\phi(X)\alpha\)

其中\(\alpha\)为N维列向量\(\alpha = [\alpha_1,\alpha_2,...,\alpha_N]^T\)

带回到（4）式

主成分分析_主成分分析_07

两边左乘\([\phi(X)^{T}]\)，得

主成分分析_特征空间_08

定义矩阵\(K =[\phi(X)]^{T}\phi(X)\)，则K为\(N \times N\)的半对称正定矩阵，其\(i\)行\(j\)列的元素为\(K_{ij}= \phi(x_i)^{T}[\phi(x_j)]\)

将K带入，得：

主成分分析_数据降维_09

即为

\[K\alpha = \lambda \alpha \]

因为矩阵K的元素可由\(K_{ij} = \phi(x)^{T}[\phi(x_j)]\)计算得到，不需要显式定义映射\(\phi(x)\)，只需要定义特征空间中向量的点积，就是核技巧。

定义核函数\(k(x,y)=\phi(x)^{T}\phi(y)\)。

核技巧的核心就是通过定义核函数点积而不是定义映射。

常用核函数

多项式核

\(k(x,y)=(ax^{T}+c)^{d}\)

高斯核

\(k(x,y)=exp(-\frac{||x-y||^{2}}{2\sigma^2})=exp(-\gamma||x-y||^{2})\)

sigmond核

\(k(x,y)=tanh(aX^{T}y+r)\)

参考博客

数据降维: 核主成分分析(Kernel PCA)原理解析 - 知乎 (zhihu.com)

很喜欢听到一个老师说的“半年理论”，现在做出的努力，一般要在半年的沉淀之后，才能出结果，所以在遇到瓶颈之时，不妨再努力半年

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：前沿导论作业心得——利用RESNET预训练模型进行图片分类任务

下一篇：自然语言处理实战---基于HMM算法实现命名实体识别

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

主成分分析

主成分分析

线性映射

主成分分析的计算方式

主成分分析

数学模型

数学可行性推导

主成分分析的数学推导

核主成分分析

常用核函数

参考博客

51CTO博客