深度学习数据清洗公式

转载

mob6454cc613c41 2024-09-05 16:07:03

学习了这么长时间的理论知识，开始着手理论联系实践了。
先总结一些基本的特征工程中数据清洗的基本套路，具体实现会在以后给出。
声明：关于编程语法相关问题不会展开论述，本文只针对方法路线。

解决缺失值： 平均值、最大值、最小值或者更为复杂的的概率估计代替缺失值；
去重： 相等的记录合并为一条记录；
解决错误值： 用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或者回归方程的值，也可以用简单规则库（常识性规则，业务特定规则等）检查数据值，或使用不同属性的约束、外部的数据来检测和清理数据；
解决数据的不一致性： 比如数据是类别型或者次序性——离散型数据。

1、删除多列；
2、更改数据类型；
3、将分类变量转成数字变量；
4、检查缺失数据；
5、删除列中的字符串；
6、删除列中的空格；
7、用字符串连接两列；
8、转换时间截（从字符串转到时间格式）

1、对数变换
2、标准缩放
3、转换数据类型
4、独热编码
5、标签编码

.pandas_profiling
推荐一个python的库函数：pandas_profiling
pandas_profiling 主要用于将文本数据可视化，代码如下：

深度学习数据清洗公式_数据清洗

通过ppf.ProfileReport(train_data）生成一个报告文件，再将该报告文件用to_file(path)转成网页格式文件，打开html文件即可看到文本数据详情。
在生成的报告中，库函数已经生成每个样本的分布情况，异常值和缺失值等情况一眼望穿。

深度学习数据清洗公式_数据清洗_02

深度学习数据清洗公式_深度学习数据清洗公式_03

下图可以看出，数据缺失情况。
![在这里插入图片描述](
上面仅列举出明显需要数据清洗的情况，当然，在生成报告中还有很多其他指标，这些指标对前期的特征工程十分有利！
第二个python的库函数：seaborn (http://seaborn.pydata.org/)。seaborn是matplotlib的更高级的API封装，也可以说是matplotlib的升级版。这里仅使用一条语句来说明箱型图的使用方法：