数据清洗常用的 2 个小 trick

原创

不可言诉的深渊 2022-10-17 15:15:51 ©著作权

©著作权归作者所有：来自51CTO博客作者不可言诉的深渊的原创作品，请联系作者获取转载授权，否则将追究法律责任

Pandas 巧用 `str.split` 和 `str.cat`

因为以上两个方法，直接按列操作，所以省掉一层 for 循环，下面直接看例子。

df = pd.DataFrame({'names':["Geordi La Forge", "Deanna Troi", "Jack"],'IDs':[1,2,3]})
df

数据清洗常用的 2 个小 trick_连接字符串

列分割

对 names 列，按照第一个空格分割为两列：

df["first_name"] = df["names"].str.split(n = 1).str[0]
df["last_name"] = df["names"].str.split(n = 1).str[1]
df

结果如下：

数据清洗常用的 2 个小 trick_赋值_02

列合并方法 1

分割列搞定，接下来再合并回去，使用 cat 方法：

df["names_copy"] = df["first_name"].str.cat(df["last_name"], sep = " ")
df

数据清洗常用的 2 个小 trick_连接字符串_03

合并两列得到一个新列 names_copy 搞定！

列合并方法 2

还有别的合并方法吗，直接使用 + 连接字符串：

df["names_copy2"] = df["first_name"] + " "+ df["last_name"]
df

效果是一样的：

数据清洗常用的 2 个小 trick_赋值_04

Pandas 多条件筛选可读性较好的写法

有特征上百个，根据多个特征筛选 DataFrame 时，如果这么做，可读性不太友好：

数据清洗常用的 2 个小 trick_连接字符串_05

df[(df["continent"] == "Europe") & (df["beer_servings"] > 150) & (df["wine_servings"] > 50) & (df["spirit_servings"] < 60)]

连续多个筛选条件写到一行里。

更好可读性的写法

cr1 = df["continent"] == "Europe"
cr2 = df["beer_servings"] > 150
cr3 = df["wine_servings"] > 50
cr4 = df["spirit_servings"] < 60

df[cr1 & cr2 & cr3 & cr4]

个人更喜欢后者，虽然代码多几行，但是可读性更好一些，拆开多个过滤条件并分别赋值给对象，最后再传到 df 中，代码看起来更清爽。

另一种多条件过滤的建议写法，供大家参考选择。

数据清洗常用的 2 个小 trick_连接字符串_06

上一篇：Python 测试基础

下一篇：Python 模块 aiohttp

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯