sql server 删除NULL行 sql删除为null的数据

转载

mob6454cc6b8546 2023-12-25 19:09:09

文章标签 sql server 删除NULL行清理数据字段数据 mysql 文章分类 SQL Server 数据库

一、数据集解释：

数据集里包含了泰坦尼克号上的乘客信息和存活指标，一共有两个csv文件，分别是test和train。后者用来进行数据分析和数据清理，并得出结论与模型，用该结论与模型来对前者进行存活率预测。当然这篇文章主要是讲解如何用sql进行数据清理。

具体字段意义如下：

sql server 删除NULL行 sql删除为null的数据_字段

二、数据清洗

首先我们利用navicat将csv表进行导入，导入后的情形如下：

sql server 删除NULL行 sql删除为null的数据_字段_02

1. 完整性

紧接着我们来检查数据完整性，我们会发现数据中存在很多null值，对于这些null值一般有三种处理办法分别是插入平均值、插入高频值、删除记录。在进行这三种操作之前，我们先要查探每一个字段所包含的空值个数。当然你可能使用的方法是利用类似SELECT COUNT(*) FROM TABLE WHERE COLUMN IS NULL 的语句进行查询，但是当字段多了这种方法就显得效率低。对此，我们可以创建一个存储过程，使这件事情能够一步到位，具体操作如下：

sql server 删除NULL行 sql删除为null的数据_清理数据_03

我们可以看到一共有10个结果集出现，然而事实是train这张表一共有12个字段，显然不对有缺少。这是因为navicat 本身最多显示10个结果集，于是我们使用cmd进行重复操作，得出结果如下。

sql server 删除NULL行 sql删除为null的数据_清理数据_04

sql server 删除NULL行 sql删除为null的数据_mysql_05

接下来我们分别对这些空值进行处理，针对年龄这一字段我们用均值替代空值，但如果你在主查询和子查询同时调用一张表就会报错，所以我们需要先创建一张同样的表再进行数据更新，具体操作如下。

sql server 删除NULL行 sql删除为null的数据_sql server 删除NULL行_06

sql server 删除NULL行 sql删除为null的数据_sql server 删除NULL行_07

对于Cabin字段，我们发现空值个数有687而整张表有891行记录，但与此同时我们进行如下查询后发现剩余字段值个数与唯一值个数相差不大，此时用高频值进行替代显然不合理，又由于Cabin的意思是船舱，用平均值也不合理，那好像只剩最后一个办法删除记录，但这就更不合理，删完后数据所剩无几，所以我们做出的判断是维持原样不进行任何处理。

sql server 删除NULL行 sql删除为null的数据_字段_08