python某列数值重复则删去该行

原创

mob64ca12ee66e3 2023-12-23 05:02:11 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12ee66e3的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python某列数值重复则删去该行

在处理数据时，经常会遇到需要删除某列数值重复的行的情况。Python提供了强大的数据处理库pandas，可以很方便地实现这个功能。

pandas简介

pandas是基于NumPy的数据处理库，提供了简单易用的数据结构和数据分析工具。pandas的两个主要数据结构是Series和DataFrame。Series是一维的带标签的数组，类似于Excel中的一列数据；DataFrame是二维的表格数据结构，类似于Excel中的一个工作表。

删除重复行

假设我们有一个包含学生信息的数据表，其中包含学生的姓名、年龄和性别。我们的任务是删除姓名重复的行。首先，我们需要导入pandas库并加载数据表。

import pandas as pd

# 加载数据表
data = pd.read_csv('students.csv')

数据表加载完成后，我们可以使用duplicated函数找到重复的行。

# 找到重复的行
duplicates = data.duplicated('name', keep=False)

在这个例子中，我们通过duplicated函数的keep=False参数找到所有重复的行。接下来，我们可以使用这个布尔数组对数据表进行过滤，只保留不重复的行。

# 过滤重复的行
data = data[~duplicates]

在这个例子中，我们使用了~运算符对布尔数组进行取反操作，得到了不重复的行。最后，我们可以将结果保存到一个新的文件中。

# 保存结果
data.to_csv('students_cleaned.csv', index=False)

现在，我们已经完成了删除姓名重复的行的任务。接下来，我们来看一个完整的示例。

示例

假设我们有以下的学生信息表：

name	age	gender
Alice	18	Female
Bob	20	Male
Alice	18	Female
Charlie	19	Male
Bob	20	Male

我们的目标是删除姓名重复的行，即删除第3行和第5行。以下是完整的代码示例：

import pandas as pd

# 加载数据表
data = pd.read_csv('students.csv')

# 找到重复的行
duplicates = data.duplicated('name', keep=False)

# 过滤重复的行
data = data[~duplicates]

# 保存结果
data.to_csv('students_cleaned.csv', index=False)

运行代码之后，将生成一个新的文件students_cleaned.csv，其中包含了删除姓名重复的行后的结果。