Python编程学习圈 2020-12-18

「数据预处理」数据探索与数据清洗_Python1.目的

数据探索是为了提前发现数据中包含的一些简单规律或特征;

数据清洗是为了留下可靠数据,修正不可靠数据,去除脏数据的干扰。

2.数据探索的核心

①数据质量分析;

②数据特征分析(即对数据的分布、对比、周期性、相关性、常见统计量等进行分析)

3.数据清洗步骤

(1)缺失值处理(通过describe与len直接发现、通过0数据发现)

①一般遇到缺失值,处理方式有:删除、插补、不处理。

②插补也方式有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值等。

(2)异常值处理(通过散点图发现)

遇到异常值,一般处理方式为视为缺失值、删除、修补(平均数、中位数等)、不处理。

4.数据清洗实例

「数据预处理」数据探索与数据清洗_Python_02

第一步:数据导入

「数据预处理」数据探索与数据清洗_Python_03

第二步:缺失值处理

「数据预处理」数据探索与数据清洗_Python_04

第三步:异常值处理

5.分布分析(直方图)

「数据预处理」数据探索与数据清洗_Python_05

分布分析

「数据预处理」数据探索与数据清洗_Python_06

直方图