python实战因子分析factor analysis

关注公众号_python风控模型

python实战因子分析factor analysis

原创

公众号_python风控模型 2021-06-14 16:51:39 博主文章分类：python生物信息学 ©著作权

文章标签 因子分析主成分分析统计 python 降维 文章分类 人工智能

©著作权归作者所有：来自51CTO博客作者公众号_python风控模型的原创作品，请联系作者获取转载授权，否则将追究法律责任

因子分析是一种统计方法，可用于描述观察到的相关变量之间的变异性，即潜在的未观察到的变量数量可能更少（称为因子）。例如，六个观察变量的变化可能主要反映了两个未观察（基础）变量的变化。因子分析搜索这种联合变化，以响应未观察到的潜在变量。将观察到的变量建模为潜在因素以及“错误”项的线性组合。
简而言之，变量的因子加载量化了变量与给定因子相关的程度。
因子分析方法背后的一个普遍原理是，有关观察到的变量之间的相互依赖性的信息可以稍后用于减少数据集中的变量集。因子分析通常用于生物学，心理计量学，人格理论，市场营销，产品管理，运营研究和财务。在有大量观察到的变量被认为反映较少数量的基础/潜在变量的数据集时，这可能会有所帮助。它是最常用的相互依存技术之一，当相关变量集显示出系统的相互依存关系时使用，其目的是找出产生共同性的潜在因素。

因子分析分为两类

因子分析重要部分是二变量相关性矩阵和因子的相关性

pattern matrix中灰色部分就是变量值高的，灰色变量具有代表性

因子分析是一种相关性分析方法，用于在大量变量中寻找和描述潜在因子

因子分析确认变量的相关性，把相关性强的变量归类为一个潜在因子

最早因子分析应用于二战后IQ测试。一般来说，大量变量可以降维到少数几个因子。

因子分析有6个假设条件，
1.没有异常值
2.足够样本量
3.没有完美多重共线性
4.不需要符合方差齐性
5.变量符合线性
6.数据符合间隔性

当然，这是一个理想状态，实际应用中，很难做到完全遵从。如果因子分析模型效果不好，就要反思一下这6个假设条件是否存在严重问题。

因子分析与机器学习建模项目实战，我通过乳腺癌数据集，测试因子分析降维后，模型性能是否有限制下降。

结果惊讶发现，模型性能不但没有下降，而且还有提升。因子分析让模型降维，数据量减少，内存减少，运行和预测更快，模型部署难度降低，模型部署验证难度降低，企业开发模型时间成本降低，可谓一石十鸟。下图是因子分析模型调参的部分展示。

下图是python绘制因子分析碎石图。我们选因子时，要选特征值大于1的因子。但实际建模中，可以有一定灵活空间。

累计方差贡献，我们看到第七个因子fac7的累计方差贡献已经达81.872%,超过80%。因此7个因子可以解释原始变量81.872%成分，效果非常不错。

欢迎学习完整版《python实战因子分析和主成分分析》

https://edu.51cto.com/course/28044.html

赞
收藏
评论
分享
举报

上一篇：模型竞赛大杀器-融合模型(stacking)

下一篇：PCA主成分降维在人脸识别应用-附代码

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册