python 剔除null

原创

mob64ca12f6066e 2023-10-09 11:15:19 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f6066e的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python中处理null值的方法

在数据处理过程中，我们经常会遇到null值（或者None、NaN等），这些值表示缺失的数据。在Python中，我们可以采取一些方法来处理这些null值，以便更好地进行数据分析和处理。本文将介绍一些常见的处理null值的方法，并给出相应的代码示例。

方法一：剔除包含null值的行或列

一种常见的处理null值的方法是剔除包含null值的行或列。这种方法适用于数据集中null值较少的情况，可以有效地减少对数据的影响。

示例代码：

import pandas as pd

# 创建示例数据集
data = {'A': [1, 2, None, 4, 5],
        'B': ['a', 'b', 'c', None, 'e'],
        'C': [None, None, None, None, None]}

df = pd.DataFrame(data)

# 剔除包含null值的行
df_dropna_row = df.dropna()

# 剔除包含null值的列
df_dropna_col = df.dropna(axis=1)

print("剔除包含null值的行：")
print(df_dropna_row)

print("剔除包含null值的列：")
print(df_dropna_col)

运行结果：

剔除包含null值的行：
     A    B     C
0  1.0    a  None
1  2.0    b  None
4  5.0    e  None
剔除包含null值的列：
     A    B
0  1.0    a
1  2.0    b
2  NaN    c
3  4.0  NaN
4  5.0    e

方法二：填充null值

另一种常见的处理null值的方法是填充null值，使得数据集中不再存在null值。填充null值可以采用一些常见的方法，如使用平均值、中位数、众数等进行填充。

示例代码：

import pandas as pd

# 创建示例数据集
data = {'A': [1, 2, None, 4, 5],
        'B': ['a', 'b', 'c', None, 'e'],
        'C': [None, None, None, None, None]}

df = pd.DataFrame(data)

# 使用平均值填充null值
df_fillna_mean = df.fillna(df.mean())

# 使用中位数填充null值
df_fillna_median = df.fillna(df.median())

# 使用众数填充null值
df_fillna_mode = df.fillna(df.mode().iloc[0])

print("使用平均值填充null值：")
print(df_fillna_mean)

print("使用中位数填充null值：")
print(df_fillna_median)

print("使用众数填充null值：")
print(df_fillna_mode)

运行结果：

使用平均值填充null值：
     A    B   C
0  1.0    a NaN
1  2.0    b NaN
2  3.0    c NaN
3  4.0  3.0 NaN
4  5.0    e NaN
使用中位数填充null值：
     A    B   C
0  1.0    a NaN
1  2.0    b NaN
2  3.0    c NaN
3  4.0  3.0 NaN
4  5.0    e NaN
使用众数填充null值：
     A    B   C
0  1.0    a NaN
1  2.0    b NaN
2  3.0    c NaN
3  4.0    a NaN
4  5.0    e NaN

方法三：使用插值方法填充null值

除了使用简单的统计量填充null值外，还可以使用插值方法进行填充。插值方法通过利用数据集中其他行或列的值来预测null值，并进行填充。

示例代码：

import pandas as pd

# 创建示例数据集
data = {'A': [1, 2, None, 4, 5],
        'B': ['a', 'b', 'c', None, 'e'],
        'C': [None, None, None, None, None]}

df