Python info探查数据 python数据探索分析

转载

mob6454cc69d373 2024-01-10 11:49:33

文章标签 Python info探查数据数据特征函数缺失值 文章分类 Python 后端开发

文章目录

一、数据质量分析

① 缺失值分析
② 异常值分析
③ 一致性分析

二、数据特征分析

1. 分布分析
2. 对比分析
3. 统计量分析

① 集中趋势度量
② 离中趋势度量

4. 周期性分析
5. 贡献度分析
6.相关性分析

① 散点图
② 散点图矩阵
③ 计算相关系数

（1）Pearson相关系数
（2）Spearman相关系数
（3）判定系数

三、Python主要数据探索函数

1. 基本统计特征函数
2. 拓展统计特征函数
3. 统计作图函数

一、数据质量分析

数据质量分析保证了数据的准确性和有效性，其主要任务是检查原始数据中是否存在脏数据，脏数据主要包括：
缺失值
异常值
不一致的值
重复数据以及含有特殊符号（如#、￥、*）的数据

① 缺失值分析

有删除、插补、不处理三种缺失值处理方法。

② 异常值分析

（1）简单统计量分析

可以先对变量做一个描述性统计，进而查看哪些数据是不合理的。

pandas.describe()就可以查看数据的基本情况

（2）3σ原则（对正态分布来说）

（3）箱型图分析

箱型图依据实际数据绘制，对数据没有任何限制性要求（如3σ原则要求数据必须为正态分布），它真实的反映数据本来的面貌，并且有一定的鲁棒性。

因此，箱型图在识别异常值方面有一定优越性。

③ 一致性分析

主要发生在数据集成的过程中，可能由于数据来源不同、对于重复数据未能进行一致性更新造成的。

二、数据特征分析

1. 分布分析

分为定量和定性分析两种。

对于定量数据，可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图只管分析其数据是对称还是非对称，并发现特大或特小的可疑值。

对于定量变量，选择“组数”和“组宽”是做频率分析最重要的问题。一般按照如下步骤进行：

Python info探查数据 python数据探索分析_Python info探查数据

并遵循如下原则：

Python info探查数据 python数据探索分析_缺失值_02

例如：

Python info探查数据 python数据探索分析_特征函数_03

对于定性数据，可用饼图和条形图直观的显示分布情况。

例如：

Python info探查数据 python数据探索分析_特征函数_04

2. 对比分析

对比分析是指把两个互相联系的指标进行比较，从数量上展示和说明研究对象规模的大小，水平的高低，速度的快慢，以及各种关系是否协调。特别适用于指标之间横纵向比较、时间序列的比较分析。

例如：

Python info探查数据 python数据探索分析_特征函数_05

Python info探查数据 python数据探索分析_数据_06

3. 统计量分析

一般从集中趋势和离中趋势两个方面做解析

① 集中趋势度量

平均水平指标是对个体集中趋势的度量，使用最广泛的是均值和中位数，才外还有众数等。

② 离中趋势度量

有极差、标准差、编译系数、四分位数间距等，使用较为广泛的是标准差和四分位间距。

4. 周期性分析

探索某个变量是否随着时间变化呈现一定的周期性变化趋势。

例如：

Python info探查数据 python数据探索分析_Python info探查数据_07

5. 贡献度分析

又称为帕累托分析，其原理是帕累托法则，又称20/80定律。

二八定律是19世纪末20世纪初意大利经济学家帕累托发现的。他认为，在任何一组东西中，最重要的只占其中一小部分，约20%，其余80%尽管是多数，却是次要的，因此又称二八定律。

例如：对餐饮行业来说，应用贡献度分析可以改善盈利最高的前80%的菜品，或者发展前80%的部门。这种结果可以通过帕累托图直观呈现。

Python info探查数据 python数据探索分析_数据_08

6.相关性分析

分析连续变量之间线性相关程度的强弱，并用适当的统计指标表示。

① 散点图

可判断两个变量是否具有线性相关性的最直观方法。

Python info探查数据 python数据探索分析_缺失值_09

② 散点图矩阵

需要通识考察多个变量的相关关系时，可利用散点图矩阵同时绘制各个变量之间的散点图，发现多个变量之间的主要相关性，这在进行多元线性回归时显得尤为重要。

Python info探查数据 python数据探索分析_缺失值_10

③ 计算相关系数

（1）Pearson相关系数

一般分析两个连续性变量之间的关系，并且要求变量服从正态分布。

（2）Spearman相关系数

不服从正态分布的变量之间的关联性可以用Spearman秩相关系数，也称等级相关系数来描述。

只要两个变量具有严格单调的函数关系，那么它们就是完全Spearman相关的，而Pearson相关只有在变量具有线性关系时才是完全相关的。

（3）判定系数

判定系数是相关系数的评分，用来衡量回归方程对y的解释程度。

三、Python主要数据探索函数

Python中用于数据探索的库主要是Pandas（数据分析）和Matplotlib（数据可视化）。其中Pandas提供了大量数据探索相关函数，这些函数大致可以分为统计特征函数与统计作图函数，而作图函数依赖于Matplotlib，因此这两个库会结合使用。

一下主要介绍Pandas中主要的统计特征函数与统计作图函数。

1. 基本统计特征函数

Python info探查数据 python数据探索分析_特征函数_11

2. 拓展统计特征函数

除了上述基本的统计特征之外，Pandas还提供了一些方便使用的计算统计特征的函数。主要有计算（cum）和滚动计算（pd.rolling_）。

Python info探查数据 python数据探索分析_缺失值_12

Python info探查数据 python数据探索分析_缺失值_13

Python info探查数据 python数据探索分析_特征函数_14

3. 统计作图函数

作图通常是Matplotlib和Pandas结合使用。

Python info探查数据 python数据探索分析_特征函数_15

作图前一般需要加入以下语句，使正确、准确地输出：

Python info探查数据 python数据探索分析_数据_16

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：云服务器看不到公网ip对应的网卡云服务器公网ip和私网ip

下一篇：Android 逆向动态调试都用什么软件安卓逆向调试

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯