文章目录
- 一、数据质量分析
- ① 缺失值分析
- ② 异常值分析
- ③ 一致性分析
- 二、数据特征分析
- 1. 分布分析
- 2. 对比分析
- 3. 统计量分析
- ① 集中趋势度量
- ② 离中趋势度量
- 4. 周期性分析
- 5. 贡献度分析
- 6.相关性分析
- ① 散点图
- ② 散点图矩阵
- ③ 计算相关系数
- (1)Pearson相关系数
- (2)Spearman相关系数
- (3)判定系数
- 三、Python主要数据探索函数
- 1. 基本统计特征函数
- 2. 拓展统计特征函数
- 3. 统计作图函数
一、数据质量分析
数据质量分析保证了数据的准确性和有效性,其主要任务是检查原始数据中是否存在脏数据,脏数据主要包括:
缺失值
异常值
不一致的值
重复数据以及含有特殊符号(如#、¥、*)的数据
① 缺失值分析
有删除、插补、不处理三种缺失值处理方法。
② 异常值分析
(1)简单统计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。
pandas.describe()就可以查看数据的基本情况
(2)3σ原则(对正态分布来说)
(3)箱型图分析
箱型图依据实际数据绘制,对数据没有任何限制性要求(如3σ原则要求数据必须为正态分布),它真实的反映数据本来的面貌,并且有一定的鲁棒性。
因此,箱型图在识别异常值方面有一定优越性。
③ 一致性分析
主要发生在数据集成的过程中,可能由于数据来源不同、对于重复数据未能进行一致性更新造成的。
二、数据特征分析
1. 分布分析
分为定量和定性分析两种。
对于定量数据,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图只管分析其数据是对称还是非对称,并发现特大或特小的可疑值。
对于定量变量,选择“组数”和“组宽”是做频率分析最重要的问题。一般按照如下步骤进行:
并遵循如下原则:
例如:
对于定性数据,可用饼图和条形图直观的显示分布情况。
例如:
2. 对比分析
对比分析是指把两个互相联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标之间横纵向比较、时间序列的比较分析。
例如:
3. 统计量分析
一般从集中趋势和离中趋势两个方面做解析
① 集中趋势度量
平均水平指标是对个体集中趋势的度量,使用最广泛的是均值和中位数,才外还有众数等。
② 离中趋势度量
有极差、标准差、编译系数、四分位数间距等,使用较为广泛的是标准差和四分位间距。
4. 周期性分析
探索某个变量是否随着时间变化呈现一定的周期性变化趋势。
例如:
5. 贡献度分析
又称为帕累托分析,其原理是帕累托法则,又称20/80定律。
二八定律是19世纪末20世纪初意大利经济学家帕累托发现的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的,因此又称二八定律。
例如:对餐饮行业来说,应用贡献度分析可以改善盈利最高的前80%的菜品,或者发展前80%的部门。这种结果可以通过帕累托图直观呈现。
6.相关性分析
分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示。
① 散点图
可判断两个变量是否具有线性相关性的最直观方法。
② 散点图矩阵
需要通识考察多个变量的相关关系时,可利用散点图矩阵同时绘制各个变量之间的散点图,发现多个变量之间的主要相关性,这在进行多元线性回归时显得尤为重要。
③ 计算相关系数
(1)Pearson相关系数
一般分析两个连续性变量之间的关系,并且要求变量服从正态分布。
(2)Spearman相关系数
不服从正态分布的变量之间的关联性可以用Spearman秩相关系数,也称等级相关系数来描述。
只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,而Pearson相关只有在变量具有线性关系时才是完全相关的。
(3)判定系数
判定系数是相关系数的评分,用来衡量回归方程对y的解释程度。
三、Python主要数据探索函数
Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化)。其中Pandas提供了大量数据探索相关函数,这些函数大致可以分为统计特征函数与统计作图函数,而作图函数依赖于Matplotlib,因此这两个库会结合使用。
一下主要介绍Pandas中主要的统计特征函数与统计作图函数。
1. 基本统计特征函数
2. 拓展统计特征函数
除了上述基本的统计特征之外,Pandas还提供了一些方便使用的计算统计特征的函数。主要有计算(cum)和滚动计算(pd.rolling_)。
3. 统计作图函数
作图通常是Matplotlib和Pandas结合使用。
作图前一般需要加入以下语句,使正确、准确地输出: