python探索性分析 python数据探索

关注 mob64ca140ee96c

文章目录

1、将数据导入到Python中
2、查看数据的行列数、数据类型、数值型数据分布情况
3、缺失值情况探查
4、数据整体分布情况分析
5、数据相关性探查

python探索性分析 python数据探索

转载

mob64ca140ee96c 2024-01-12 05:56:01

文章标签 python探索性分析 文章分类 Python 后端开发

在做数据建模或者是数据挖掘的过程中都需要对数据做一些探索性的分析，所谓的探索性数据分析主要是对数据的整体规模有一个大致了解，主要包括但不限于记录数、特征数、特征的数据类型、数据缺失情况、数据的整体分布情况（单变量的分布及多变量的分布）、数据的相关性情况等，下面分别从这几个方面介绍一下应用Python如何做EDA。

以泰坦尼克数据为样例进行探索性数据分析。

1、将数据导入到Python中

一般在Python中应用pandas库中的相应函数进行导入数据，这样导入的数据是一个DataFrame类型，方便后面的分析。

import

2、查看数据的行列数、数据类型、数值型数据分布情况

查看行列数（记录数及特征数）

python探索性分析 python数据探索_python探索性分析

可以看出本数据集中有891条记录12个特征。

查看数据类型

python探索性分析 python数据探索_python探索性分析_02

可以看出本数据集中有int64、float64和object三种类型的变量，从这个图中同样能够看出存在缺失值的字段，个数少于891个的特征都是存在缺失的。

查看数值型数据规模

python探索性分析 python数据探索_python探索性分析_03

图中只是展示了数值型变量规则及分布，主要展示了数量、均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值等。

3、缺失值情况探查

缺失值情况探查主要是探查存在缺失值的字段及具体的缺失规模。

pandas库进行缺失探查

应用pandas库进行数据探查主要应用库中带的一些缺失值检测的函数，主要有isnull(),notnull()等。

python探索性分析 python数据探索_python探索性分析_04

从图中可以看出Age、Cabin和Embarked存在数据缺失，

missingno库进行缺失探查

missingno库主要用于对缺失值的展示，主要有三个函数missingno.bar()，missingno.matrix()，missingno.heatmap()，具体用户参见missingno官方。

python探索性分析 python数据探索_python探索性分析_05

图中白色的地方就是存在缺失值的地方，从图中可以看出Cabin字段存在大量的数据缺失。

4、数据整体分布情况分析

（1）单变量数据分析

a 、数值型数据分布情况

数值型数据分布最好以图的方式进行展示，这样能够直观形象的看出数据的整体分布情况。主要使用展示图有：直方图、箱线图、小提琴图等。

下面以Fare字段进行数据整体分布的展示

python探索性分析 python数据探索_python探索性分析_06

直方图展示数值型数据的分布情况

python探索性分析 python数据探索_python探索性分析_07

箱线图展示数值型数据的分布情况

python探索性分析 python数据探索_python探索性分析_08

小提琴图展示数值型数据的分布情况

b、分类型数据分布情况

分类型数据的分布情况探查主要是查看各个分类值出现的频次及趋势，可以直接应用pandas库中的value_counts()方法查看，同时也可以应用seaborn库中的图表进行查看。

value_counts方法

python探索性分析 python数据探索_python探索性分析_09

value_counts方法查看分类型数据的分布情况

seaborn方法

python探索性分析 python数据探索_python探索性分析_10

计数图查看分类型数据分布

（2）多变量数据分布情况分析

多变量的数据分布探查主要查看数据之间的相互关系，比较常用的就是seaborn中的pairplot方法。

python探索性分析 python数据探索_python探索性分析_11

pairplot多变量数据分布探查

5、数据相关性探查

数据相关性的探查一般都是通过查看皮尔逊相关系数确定数据之间是否存在相关性，但是这种相关性的确定有两个限制条件：1、只能确定数值型变量之间的关系；2、只能确定变量之间的是否线性相关。如果需要探查数据之间的是否存在非线性相关的时候就需要像斯皮尔曼相关系数等。

python探索性分析 python数据探索_python探索性分析_12

heatmap画相关系数热力图

注：本文只是简单的描述了一下初步数据探查的基本方法，后续还有很多地方需要不断完善的地方，比如异常值的检测、数值型变量与分类型变量的相关性分析等等，只有完全掌握了数据的整体分布才能继续后面的数据分析和挖掘工作。

本人能力有限，难免有错误或不足的地方，不吝赐教。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：浏览器打开javaapi 浏览器打开网站403

下一篇：文心一言 python sdk 文心一言手机版

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册