文章目录

  • 一、数据质量分析
  • ① 缺失值分析
  • ② 异常值分析
  • ③ 一致性分析
  • 二、数据特征分析
  • 1. 分布分析
  • 2. 对比分析
  • 3. 统计量分析
  • ① 集中趋势度量
  • ② 离中趋势度量
  • 4. 周期性分析
  • 5. 贡献度分析
  • 6.相关性分析
  • ① 散点图
  • ② 散点图矩阵
  • ③ 计算相关系数
  • (1)Pearson相关系数
  • (2)Spearman相关系数
  • (3)判定系数
  • 三、Python主要数据探索函数
  • 1. 基本统计特征函数
  • 2. 拓展统计特征函数
  • 3. 统计作图函数


一、数据质量分析

数据质量分析保证了数据的准确性和有效性,其主要任务是检查原始数据中是否存在脏数据,脏数据主要包括:
缺失值
异常值
不一致的值
重复数据以及含有特殊符号(如#、¥、*)的数据

① 缺失值分析

有删除、插补、不处理三种缺失值处理方法。

② 异常值分析

(1)简单统计量分析

可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。

pandas.describe()就可以查看数据的基本情况

(2)3σ原则(对正态分布来说)

(3)箱型图分析

箱型图依据实际数据绘制,对数据没有任何限制性要求(如3σ原则要求数据必须为正态分布),它真实的反映数据本来的面貌,并且有一定的鲁棒性。

因此,箱型图在识别异常值方面有一定优越性。

③ 一致性分析

主要发生在数据集成的过程中,可能由于数据来源不同、对于重复数据未能进行一致性更新造成的。

二、数据特征分析

1. 分布分析

分为定量和定性分析两种。

对于定量数据,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图只管分析其数据是对称还是非对称,并发现特大或特小的可疑值。

对于定量变量,选择“组数”和“组宽”是做频率分析最重要的问题。一般按照如下步骤进行:

Python info探查数据 python数据探索分析_Python info探查数据


并遵循如下原则:

Python info探查数据 python数据探索分析_缺失值_02


例如:

Python info探查数据 python数据探索分析_特征函数_03


对于定性数据,可用饼图和条形图直观的显示分布情况。

例如:

Python info探查数据 python数据探索分析_特征函数_04

2. 对比分析

对比分析是指把两个互相联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标之间横纵向比较、时间序列的比较分析。

例如:

Python info探查数据 python数据探索分析_特征函数_05


Python info探查数据 python数据探索分析_数据_06

3. 统计量分析

一般从集中趋势和离中趋势两个方面做解析

① 集中趋势度量

平均水平指标是对个体集中趋势的度量,使用最广泛的是均值和中位数,才外还有众数等。

② 离中趋势度量

有极差、标准差、编译系数、四分位数间距等,使用较为广泛的是标准差和四分位间距。

4. 周期性分析

探索某个变量是否随着时间变化呈现一定的周期性变化趋势。

例如:

Python info探查数据 python数据探索分析_Python info探查数据_07

5. 贡献度分析

又称为帕累托分析,其原理是帕累托法则,又称20/80定律。

二八定律是19世纪末20世纪初意大利经济学家帕累托发现的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。

例如:对餐饮行业来说,应用贡献度分析可以改善盈利最高的前80%的菜品,或者发展前80%的部门。这种结果可以通过帕累托图直观呈现。

Python info探查数据 python数据探索分析_数据_08

6.相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示。

① 散点图

可判断两个变量是否具有线性相关性的最直观方法。

Python info探查数据 python数据探索分析_缺失值_09

② 散点图矩阵

需要通识考察多个变量的相关关系时,可利用散点图矩阵同时绘制各个变量之间的散点图,发现多个变量之间的主要相关性,这在进行多元线性回归时显得尤为重要。

Python info探查数据 python数据探索分析_缺失值_10

③ 计算相关系数

(1)Pearson相关系数

一般分析两个连续性变量之间的关系,并且要求变量服从正态分布。

(2)Spearman相关系数

不服从正态分布的变量之间的关联性可以用Spearman秩相关系数,也称等级相关系数来描述。

只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,而Pearson相关只有在变量具有线性关系时才是完全相关的。

(3)判定系数

判定系数是相关系数的评分,用来衡量回归方程对y的解释程度。

三、Python主要数据探索函数

Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化)。其中Pandas提供了大量数据探索相关函数,这些函数大致可以分为统计特征函数与统计作图函数,而作图函数依赖于Matplotlib,因此这两个库会结合使用。

一下主要介绍Pandas中主要的统计特征函数与统计作图函数。

1. 基本统计特征函数

Python info探查数据 python数据探索分析_特征函数_11

2. 拓展统计特征函数

除了上述基本的统计特征之外,Pandas还提供了一些方便使用的计算统计特征的函数。主要有计算(cum)和滚动计算(pd.rolling_)。

Python info探查数据 python数据探索分析_缺失值_12


Python info探查数据 python数据探索分析_缺失值_13

Python info探查数据 python数据探索分析_特征函数_14

3. 统计作图函数

作图通常是Matplotlib和Pandas结合使用。

Python info探查数据 python数据探索分析_特征函数_15


作图前一般需要加入以下语句,使正确、准确地输出:

Python info探查数据 python数据探索分析_数据_16