传统机器学习——特征工程之数据清洗

  • 前言
  • 数据清洗方法
  • 数据清洗的八大场景
  • 数据处理方法
  • 数据可视化工具


前言

学习了这么长时间的理论知识,开始着手理论联系实践了。
先总结一些基本的特征工程中数据清洗的基本套路,具体实现会在以后给出。
声明:关于编程语法相关问题不会展开论述,本文只针对方法路线。

数据清洗方法

  1. 解决缺失值: 平均值、最大值、最小值或者更为复杂的的概率估计代替缺失值;
  2. 去重: 相等的记录合并为一条记录;
  3. 解决错误值: 用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或者回归方程的值,也可以用简单规则库(常识性规则,业务特定规则等)检查数据值,或使用不同属性的约束、外部的数据来检测和清理数据;
  4. 解决数据的不一致性: 比如数据是类别型或者次序性——离散型数据。

数据清洗的八大场景

1、删除多列;
2、更改数据类型;
3、将分类变量转成数字变量;
4、检查缺失数据;
5、删除列中的字符串;
6、删除列中的空格;
7、用字符串连接两列;
8、转换时间截(从字符串转到时间格式)

数据处理方法

1、对数变换
2、标准缩放
3、转换数据类型
4、独热编码
5、标签编码

数据可视化工具

  1. .pandas_profiling
    推荐一个python的库函数:pandas_profiling
    pandas_profiling 主要用于将文本数据可视化,代码如下:
  2. 深度学习数据清洗公式_数据清洗

  3. 通过ppf.ProfileReport(train_data)生成一个报告文件,再将该报告文件用to_file(path)转成网页 格式文件,打开html文件即可看到文本数据详情。
    在生成的报告中,库函数已经生成每个样本的分布情况,异常值和缺失值等情况一眼望穿。
  4. 深度学习数据清洗公式_数据清洗_02

  5. 下图可以看出,数据分布不均匀。
  6. 深度学习数据清洗公式_深度学习数据清洗公式_03

  7. 下图可以看出,数据缺失情况。
    ![在这里插入图片描述](
    上面仅列举出明显需要数据清洗的情况,当然,在生成报告中还有很多其他指标,这些指标对前期的特征工程十分有利!
  8. 第二个python的库函数:seaborn (http://seaborn.pydata.org/)。seaborn是matplotlib的更高级的API封装,也可以说是matplotlib的升级版。这里仅使用一条语句来说明箱型图的使用方法:
  9. 深度学习数据清洗公式_数据_04

  10. sns.boxplot(a,b)入口参数传入数据集的两列,plt.show()显示出数据图如下:
  11. 深度学习数据清洗公式_机器学习_05

  12. 途中的星型的点便是异常值,使用pandas对这些异常值drop掉。
  13. 第三种清洗方法使matplotlib绘图。离群点对算法影响较大,所以有必要将离群点drop掉。使用scatter()画出数据分布图,从该图上可以明显看出离群点。以训练集中的一个属性为例,观察该样本的分布:
  14. 深度学习数据清洗公式_数据清洗_06


  15. 深度学习数据清洗公式_特征工程_07

  16. 从图中可以明显看到圈中的点为离群点,必须将此drop掉:
  17. 深度学习数据清洗公式_深度学习数据清洗公式_08