文章目录
- 数据探索性分析
- 数据质量分析
- 缺失值分析
- 异常值分析
- 一致性分析
- 数据特征分析
- 分布分析
- 对比分析
- 统计量分析
- 周期性分析
- 贡献度分析
- 相关性分析
- python主要数据探索函数
- 基本统计特征函数
- 拓展统计特征函数
- 统计作图函数(matplotlib)
数据探索性分析
数据质量分析
缺失值分析
1、缺失值产生的原因
1)有些暂时无法获取的数据,或者获取代价太大的数据
2)有些是被遗漏的数据
- 输入时认为不重要,忘记填写,对数据理解错误,一些人为的因素
- 数据采集设备故障,存储介质故障,传输媒体的故障等非人为丢失
2、缺失值的影响
- 数据挖掘建模将丢失大量有用信息
- 挖掘模型所表现的不确定性更加显著
- 包含空值的数据会使建模过程陷入混乱,导致不可靠的输出
3、缺失值分析
- 简单的统计分析:得到含有缺失值的属性及个数,和缺失率
- 从总体上来说:缺失值处理分为三个:
- 删除
- 插补
- 不处理
异常值分析
含义:是检验是否含有录入错误,以及不合常理的数据,异常值是指样本中的个别值,其数值明显偏离其余的观测值,异常值也称离群点
1、作简单统计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的,最常用的统计量是,最大,最小值,如:客户年龄199岁,则该变量的取值存在异常
箱型图分析
一致性分析
数据的不一致性是指数据的矛盾性,不相容性。
在数据挖掘中,不一致数据主要产生在数据集成的过程中,
数据特征分析
对数据进行质量分析之后,接下来可以通过绘制图表,计算某些特征量等手段进行数据的特征分析
分布分析
揭示数据的分布特征和分布类型,
- 对于定量数据:欲了解其分布形式的对称性,非对称性,发现某些特大或特小的可疑值
- 可通过绘制:频率分布表,频率分布直方图,茎叶图
- 定性分类数据:可用饼图,条形图,显示分布情况
1、定量数据的分布分析
对于定量数据,选择‘组距’和‘组数’是频率分布分析最主要的问题,一般按照以下步骤进行:
1)求极差(最大-最小)
2)决定组距和组数(根据业务取组距,组数 = 极差 / 组距)
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图
遵循的主要原则如下
1)各组之间必须是相互排斥的
2)各组之间必须将所有的数据包含
3)各组的组宽最好都相等
2、定性数据的分布分析
对于定性数据,常常根据数据的分类类型来分组,饼图和条形图
对比分析
两种形式
1、绝对数比较
利用绝对数进行对比
2、相对数比较
对两个有联系的指标对比计算
- 结构相对数:将同一总体内的部分数值与全部数值进行对比求得比重,用以说明事物的结构,质量,性质的相似度
- 比例相对数
- 比较相对数
- 强度相对数
- 计划完成相对数
- 动态相对数:用同一种现象在不同时期的指标数值进行对比,用以说明,数据事物的周期性,发展速度,增长速度等
统计量分析
1、集中趋势度量
平均数、中位数、众数
2、离中趋势度量
极差、标准差、变异系数、四分位间距(上四分位与下四分位之差)
describe
周期性分析
某个变量随着时间变化呈现出的某种周期性变化趋势,
贡献度分析
原理是帕累托法则,就是28原则,同样的投入放在不同的地方产生不同的效益
例如:一个公司80%的收益常常来自20%最畅销的产品,而其他80%的产品只有20%的收益
相关性分析
corr
1、绘制散点图最直观
2、计算相关系数
1)pearson相关系数
2)Spearman相关系数
pearson线性相关系数,要求服从正态分布,不服从正态分布的变量可采用Spearman
python主要数据探索函数
基本统计特征函数
拓展统计特征函数
统计作图函数(matplotlib)