机器学习 | PCA主成分分析

原创

姜兴琪 2022-06-01 06:47:38 ©著作权

©著作权归作者所有：来自51CTO博客作者姜兴琪的原创作品，请联系作者获取转载授权，否则将追究法律责任

PCA介绍

主成分分析（Principal Component Analysis），是一种用于探索高维数据的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩，数据预处理等。PCA可以把可能具有线性相关性的高维变量合成为线性无关的低维变量，称为主成分（principal components），新的低维数据集会尽可能的保留原始数据的变量，可以将高维数据集映射到低维空间的同时，尽可能的保留更多变量。
注意：降维就意味着信息的丢失，这一点一定要明确，如果用原始数据在模型上没有效果，期望通过降维来进行改善这是不现实的，不过鉴于实际数据本身常常存在的相关性，我们可以想办法在降维的同时将信息的损失尽量降低。当你在原数据上跑了一个比较好的结果，又嫌它太慢模型太复杂时候才可以采取PCA降维。

Python实现PCA：

import&nbsp;numpy&nbsp;as&nbsp;np
from&nbsp;sklearn.decomposition&nbsp;import&nbsp;PCA
X&nbsp;=&nbsp;np.array([[-1,&nbsp;-1],&nbsp;[-2,&nbsp;-1],&nbsp;[-3,&nbsp;-2],&nbsp;[1,&nbsp;1],&nbsp;[2,&nbsp;1],&nbsp;[3,&nbsp;2]])
pca&nbsp;=&nbsp;PCA(n_components=2)
pca.fit(X)
PCA(copy=True,&nbsp;iterated_power=&#39;auto', n_components=2, random_state=None,
svd_solver=&#39;auto', tol=0.0, whiten=False)
print(pca.explained_variance_ratio_)

[&nbsp;0.99244289&nbsp;&nbsp;0.00755711]

先创建一个PCA对象，其中参数n_components表示保留的特征数，默认为1。
最后显示的参数：explained_variance_ratio_，表示所保留的n个成分各自的方差百分比,这里可以理解为单个变量方差贡献率，

可以看到第一个特征的单个变量方差贡献率已经到达0.99,意味着几乎保留了所有的信息。所以只保留一个特征即可
如果将n_components设置成‘mle’，那么会自动确定保留性价比最高的特征数，发现自动保留了一个特征。

pca&nbsp;=&nbsp;PCA(n_components=&#39;mle')
pca.fit(X)
print(pca.explained_variance_ratio_)

[&nbsp;0.99244289]

上一篇：机器学习 | 梯度下降种类及对比

下一篇：常见的几种聚类算法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯