之前我以为主成分分析用协方差矩阵→散度矩阵,而fa用相关系数矩阵,这也是区别之一。但事实上先对数据进行标准化后,其协方差矩阵就是相关系数矩阵(忘了在哪看的了)。还有一点,fa的因子载荷矩阵是特征值开根号*特征向量,而pca的好像没开根号?
继续学习了一下,大致可以认为,主成分分析是因子分析的前半部分。
具体可见参考文献1:
重点看文献1中关于两种分析方式的步骤,以及对于差异的总结。
Fa就是在pca的基础上又做了因子旋转,因为pca所得出的几个主成分是不具有明确的现实意义的,只能说是几个主要成分的混合。而因子旋转的目的就是通过旋转,让主成分→因子具有现实意义。
参考文献2 主成分分析是一种实事求是的分析方法,它把总体的所有变化尽量用更高的效率集中到少数几个变量(主成分)上,从而为降维研究提供基础。而因子分析则是建立在假设的基础上,假设我们的事物由几种现实因素构成。
其他的一些问题:
关于因子旋转我还不太能理解,找到初始的因子载荷矩阵就是通过旋转的方式得到的(或者说是用投影的方式得到的?投影大,在轴上投影大的变量又多的坐标轴作为基坐标轴,这应该和旋转是一回事?)。那么,接下来要找到简单的因子载荷矩阵,就要通过因子旋转的方式,也就是继续转动坐标轴,直到每个变量尽量在某一个或两个因子轴上的投影很大,而且在余下的那些轴上投影为零。我的问题在于,后续的旋转不会破坏前面旋转的结果吗?因为pca的旋转是正交的旋转,而fa既有正交旋转也有斜交旋转。斜交进行微调还能理解,但如果采用正交旋转,那旋转了之后不就把前面的旋转结果破坏了吗?
所以我的理解哪里出了问题?
可以参考一下该文献的第三部分:
上面主成分解是不唯一的,因为对 A作任何正交变换都不会改变原来的(见原文,这里有图片没法复制) ,即设Q为m 阶正交矩阵, B = AQ则 ,载荷矩阵的这种不唯一性表明看是不利的,但我们却可以利用这种不变性,通过适当的因子变换,使变换后新的因子具有 更鲜明的实际意义或可解释性,比如,我们可以通过正交变换使B 中有尽可能多的元 素等于或接近于0,从而使因子载荷矩阵结构简单化,便于做出更有实际意义的解释。
百度知道:特征值是矩阵固有的, 是唯一确定的,
特征向量不唯一,
特征向量来自齐次线性方程组的解,
是齐次线性方程组的基础解系的非零线性组合,
所以不唯一。
特征值是特征多项式的根,所以确定,是唯一一组;对应于特征值的特征向量可以有很多,可以不同,但最大线性无关组中所含向量的个数也是确定的。千万不要弄混了。