1. 概述
     主成分分析是由Pearson于1901年提出,再由Hotelling于1933年推广的一种多变量统计方法。主成分分析的目的是用较少的变量解释原来资料中的大部分变异,将相关性很高的变量转化为彼此互不独立或者不相关的变量。选出比原始变量少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析是一种降维方法。
  2. 主成分回归法 主成分回归法建立模型SPSS_主成分分析

  3. (图源百度)
     成分的保留:Kaiser主张将特征值小于1的成分放弃,只保留特征值大于1的成分。
     成功标准:能用不超过3~5个成分,解释变异的80%就算成功。
  4. 主成分回归法 主成分回归法建立模型SPSS_主成分分析_02

  5. 可以看到自变量x_2,x_3的方差为0,对于x_2而言,始终保持为0,没有变化程度,上述表达式完全可以用:y=ax_1+cx_3+d来替代,即x_2失去了变量存在的意义。而对于x_3而言,虽然其数值始终很大,但方差也为0,完全可以用一个常量¬d’’来替代。
    这样的两个变量在对y进行表示的过程中其实并没发挥作用,只要使用y=ax_1+c即可表示上述式子。我们将x_2,x_3被淘汰的过程的原理认为是:方差淘汰变量。当然,方差为0这是一个极端的情况,在方差很小的情况下,即数据的整体变化很小,我们也可以认为这个变量没有存在的必要,将其淘汰。
    设因变量和自变量存在函数关系:y=ax_1+bx_2+d,假如对应数据②如下:
  6. 主成分回归法 主成分回归法建立模型SPSS_spss_03

  7. 引入变量z_1,z_2,我们进行这样的线性变换:z_1=x_1+x_2; z_2=x_1-x_2,得到下面的数据表:
  8. 主成分回归法 主成分回归法建立模型SPSS_方差_04

  9. 我们上述的操作实际是对x_1和x_2进行了一组线性变换,对于变换后的结果z_2也可以被淘汰(原因不再重复,见上)。而假如我们的线性变换改变为:
  10. 主成分回归法 主成分回归法建立模型SPSS_主成分回归法_05

  11. 那么上述的变换用矩阵表示则为:
  12. 主成分回归法 主成分回归法建立模型SPSS_spss_06

  13. 则上述的线性变化本质上是进行了下面的图像变换:
    原图:
  14. 主成分回归法 主成分回归法建立模型SPSS_方差_07

  15. 变换后:
  16. 主成分回归法 主成分回归法建立模型SPSS_主成分回归法_08

  17. 可以看到,变换之后的结果:z_2变化为0,主要的变化体现在横轴的z_1上。上述的两个例子说明了主成分分析的基本思想:将原先众多具有相关性的指标重新进行线性组合,以代替原先的指标。在图像上即体现为将图像进行一定的旋转变换。而为什么不进行上面的z_1=x_1+x_2; z_2=x_1-x_2?因为这种变换转换到x轴上后个点之间的距离发生了拉伸,具体的理由下面慢慢解释;
    假设以x_1为横轴,以x_2为纵轴,有下面图像所示的图形:
  18. 主成分回归法 主成分回归法建立模型SPSS_方差_09

  19. 可以发现数据点是以x_1方向分布的,在x_2的方向上数据变化并不明显,那么我们根据方差淘汰的思想即可将变量x_2淘汰,只保留x_1;
    假如是下图所展示的情况:
  20. 主成分回归法 主成分回归法建立模型SPSS_方差_10

  21. 椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据的变化明显较大,而短轴方向变化则较小
    如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量和原始变量间存在一定的数学换算关系,同时这两个新变量之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而短轴变量只携带了一小部分变化的信息(变异)
    此时,只需要用长轴方向的变量就可以代表原来两个变量的信息,即将短轴方向上的数据抛弃。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大,降维也就越合理。
    (3) 在上述的分析中,我们反复提到“数据的变化”,那么如何衡量一组数据的变化大小?自然地,我们联想到了用方差来进行衡量。而主成分分析就是要通过不断的线性组合产生新的变量,使这组变量的方差达到最大。
  22. 数学原理分析
    设有n个样本,p个指标,则可以构成大小为n×p的样本矩阵x:
  23. 主成分回归法 主成分回归法建立模型SPSS_主成分回归法_11

  24. 假设我们想找一组新的变量:Y_1,Y_2,…,Y_m (m<p)来替代原来的p个指标,且他们满足:
  25. 主成分回归法 主成分回归法建立模型SPSS_数据分析_12

  26. 系数u_ij的确定要满足
  • Y_i与Y_j相互线性无关((i≠j),i=1,2,…,m,j=1,2,…,m)
  • Y_1是x_1,x_2,…,x_p的一切线性组合中的方差最大者
  • Y_2是与z_1不相关的x_1,x_2,…,x_p的所有线性组合中的方差最大者。
  • 以此类推:Y_m是与Y_1,Y_2,…,Y_(m-1)不相关的x_1,x_2,…,x_p的所有线性组合中的方差最大者。
  • 新变量Y_1,Y_2,…,Y_m分别称为原指标x_1,x_2,…,x_p的第一,第二,……,第m主成分。
  1. 主成分分析的基本问题
    (1) 每一个主成分的系数如何确定
     前提假设
    第一主成分的系数满足:
  2. 主成分回归法 主成分回归法建立模型SPSS_主成分回归法_13


  3. 主成分回归法 主成分回归法建立模型SPSS_方差_14

  4. 要注意的是X是一个由p个向量组成的变量,所以均值E(X)也是一个n维列向量。cov(X)即对X求其协方差矩阵(这个矩阵是一个半正定阵,一定有n个特征值,即也有n个对应的特征向量)
     第一主成分的系数满足:
  5. 主成分回归法 主成分回归法建立模型SPSS_数据分析_15


  6. 主成分回归法 主成分回归法建立模型SPSS_主成分回归法_16

  7. 由简单推理可以得出:
  8. 主成分回归法 主成分回归法建立模型SPSS_spss_17

  9. 由上述分析可知,我们要求的系数u_i1,u_i2,…,u_ip使Y_i的方差达到最大,那么这样即是一个约束优化问题,
  10. 主成分回归法 主成分回归法建立模型SPSS_spss_18

  11. 由线性代数的基本知识可对①式做下列变换:
  12. 主成分回归法 主成分回归法建立模型SPSS_数据分析_19

  13. 由上式可知,求f即转化为求矩阵Σ的特征值,求系数u_i即求特征值对应的特征向量。
    对于Y_i (i=1,2,3,…,m)的方差要求依次增大,则对应特征值依次增大,对应的特征向量依次排列形成相应的矩阵。
    (2) 如何保留主成分
    方法一:
    ① 贡献率:第i 个主成分的贡献率为
  14. 主成分回归法 主成分回归法建立模型SPSS_方差_20

  15. ② 累积贡献率:前m个主成分的累积贡献率为
  16. 主成分回归法 主成分回归法建立模型SPSS_数据分析_21

  17. ③ 选择法则:
  18. 主成分回归法 主成分回归法建立模型SPSS_方差_22

  19. 保留m 个主成分
    (3) 如何解释主成分
    ① 原始指标X_i对各个主成分的贡献
    相关系数:
  20. 主成分回归法 主成分回归法建立模型SPSS_方差_23

  21. ② 保留的m个主成分对每个X_i的贡献
  22. 主成分回归法 主成分回归法建立模型SPSS_主成分回归法_24

  23. ③ 主成分与原指标之间的相关系数
  24. 主成分回归法 主成分回归法建立模型SPSS_数据分析_25


  25. 主成分回归法 主成分回归法建立模型SPSS_spss_26


  26. 主成分回归法 主成分回归法建立模型SPSS_主成分分析_27


  27. 主成分回归法 主成分回归法建立模型SPSS_数据分析_28

  28. ④m个主成分对原始指标x的贡献:
  29. 主成分回归法 主成分回归法建立模型SPSS_方差_29

  30. 对某一个主成分而言,指标前面的系数越大,代表该指标对该主成分的影响越大。
  31. 由相关阵求主成分

下列图片摘自清风PPT

主成分回归法 主成分回归法建立模型SPSS_spss_30


主成分回归法 主成分回归法建立模型SPSS_主成分分析_31


主成分回归法 主成分回归法建立模型SPSS_主成分分析_32


主成分回归法 主成分回归法建立模型SPSS_主成分分析_33


6. 主成分分析例题分析

例一:

用主成分分析方法探讨城市工业主体结构。表1是某市工业部门13个行业8项指标的数据

主成分回归法 主成分回归法建立模型SPSS_主成分回归法_34


试用主成分分析方法确定8项指标的样本主成分(综合变量);若要求损失信息不超过15%,应取几个主成分?解:我们将题目所给数据导入SPSS后,进行主成分分析主要表格如下:

(1)进行主成分分析要求变量之间具有相关性,首先输出的是相关性矩阵,可以直观的看到变量之间具有相关性:

主成分回归法 主成分回归法建立模型SPSS_方差_35


(2)相关性检验结果:

主成分回归法 主成分回归法建立模型SPSS_方差_36


根据KMO和巴特利特检验结果,综合两项指标,说明变量之间存在相关性,可以进行主成分分析。

(3)对主成分的解释:

主成分回归法 主成分回归法建立模型SPSS_主成分分析_37


由上图的总方差解释可以得知当选取3个成分时已经能够解释89.424%的方差,接着输出的是碎石图,展示所有的主成分的特征值情况:

主成分回归法 主成分回归法建立模型SPSS_spss_38


由于SPSS默认选取的是对应特征值大于1的主成分,所以最后输出的成分矩阵只提取了2个主成分:

主成分回归法 主成分回归法建立模型SPSS_spss_39


主成分回归法 主成分回归法建立模型SPSS_主成分回归法_40


但是按照题目要求,需要解释85%以上的变异,由对主成分的解释表可知,我们需要选择3个主成分。

例二:

某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表3所示。试进行主成分分析,并对所选取的主成分作出解释。

主成分回归法 主成分回归法建立模型SPSS_数据分析_41


解:将所给数据代入SPSS工具后,我们对数据进行主成分分析处理:

(1) 进行主成分分析要求变量之间存在相关性,所以首先输出的相关性矩阵,通过下表我们可以明显的看出变量之间存在相关性,适合做相关性检验:

主成分回归法 主成分回归法建立模型SPSS_主成分分析_42


下面输出的是KMO检验和巴特利特球形检验的结果:

可以看出KMO值在0.7~0.8之间,比较适合进行主成分分析。接下来的是巴特利特球形检验的结果:显著性小于0.05。两项指标结合,通过KMO和巴特利特检验。

主成分回归法 主成分回归法建立模型SPSS_spss_43


(2) 主成分分析通过输出的总方差解释图,我们可以直观的发现使用前两个特征值大于1的主成分即可解释89%以上的变异,基本把握住了主成分,达到舍去不必要成分的目的。

主成分回归法 主成分回归法建立模型SPSS_主成分分析_44


最后我们通过输出的成分矩阵写出函数表示:

主成分回归法 主成分回归法建立模型SPSS_spss_45


主成分回归法 主成分回归法建立模型SPSS_主成分分析_46


主成分回归法 主成分回归法建立模型SPSS_方差_47