一句话总结PCA

 

核心:向重构误差最小(方差最大)的方向做线性投影。

 

PCA是一种数据降维和去除相关性的方法,它通过线性变换将向量投影到低维空间。对向量进行投影就是让向量左乘一个矩阵得到结果向量,这是线性代数中讲述的线性变换:

y = Wx

降维要确保的是在低维空间中的投影能很好的近似表达原始向量,即重构误差最小化。下图是主分量投影示意图:

一句话总结PCA_PCA

在上图中样本用红色的点表示,倾斜的直线是它们的主要变化方向。将数据投影到这条直线上即完成数据的降维,把数据从2维降为1维。计算最佳投影方向时求解的最优化问题为:

一句话总结PCA_PCA_02

最后归结为求协方差矩阵的特征值和特征向量:

一句话总结PCA_PCA_03

PCA是一种无监督的学习算法,它是线性模型,不能直接用于分类和回归问题。