python 两个表格模糊匹配 pandas两列模糊匹配

转载

mob64ca1417736e 2023-12-18 13:54:42

文章标签 python 两个表格模糊匹配 pandas 读取所有工作表 python pandas 排序 文章分类 Python 后端开发

前言

本系列已经有一篇文章介绍 pandas 中实现 Excel 的 vlookup 函数的方式，但是 vlookup 中还有一个"模糊匹配"的功能，主要用于分段匹配，今天就来看看 pandas 中是如何做到同等效果。

案例1

今天，你接到一份紧急的临时需求，数据表格如下：

python 两个表格模糊匹配 pandas两列模糊匹配_python pandas 排序_02

200百万行的记录
需要按照分数列，按规则计算出评级

规则表如下：

python 两个表格模糊匹配 pandas两列模糊匹配_pandas 读取所有工作表_03

这是特意为 Vlookup 而设计的规则表

若按 pandas 来设计规则表，那么 Vlookup 的解决方式就会很麻烦。

怎么办？数据多到 Excel 也打不开，管你是 Vlookup 还是 Xlookup 也没用。

python 两个表格模糊匹配 pandas两列模糊匹配_pandas 读取所有工作表_04

多功能的 Vlookup

由于这次数据太多，用 Excel 已经不能打开此文件，因此我用少量数据简单演示一下如何用 Vlookup 解决此问题：

python 两个表格模糊匹配 pandas两列模糊匹配_python pandas 排序_05

其实就是最后一个参数输入 1(True)，即可
很重要一点，规则表的值列，记得要排好序，否则结果错乱你也不知道

pandas 中的分段匹配

这种需求在数据处理一般称为"分箱"，pandas 中使用 cut 方法做到：

python 两个表格模糊匹配 pandas两列模糊匹配_python 两个表格模糊匹配_06

我们从 csv 读取数据，从 Excel 中读取规则表
注意这是 pandas 的顶层方法，因此是 pd.cut()
第1参数传入判断数据列
第2参数传入规则表的值，但是 cut 方法必需给定所有区间的边界。像本例子的规则表，没有高于120分的结束边界，我们需要添加一个很大的值作为结束边界
参数 right，设置为 False ，只是为了与 vlookup 效果一致而已，表示："右区间边界开放"，比如：120分，被划分到 A+ 评级
参数 labels，就是返回的结果

可以看到 pandas 可以轻松从任意数据源中读取数据，本例中即使你的数据源在各种数据库也是没问题注意，bins 没有升序排序时，会报错。这是非常好的设计

看文字很难理解，看看这个示意图，应该清晰很多：

python 两个表格模糊匹配 pandas两列模糊匹配_python pandas 排序_07

python 两个表格模糊匹配 pandas两列模糊匹配_pandas 读取所有工作表_08

案例2：自动划分

在实际分析工作中，你可能一开始并不清楚到底规则表的各个节点怎么定义才合理。

比如你现在希望划分3个段，但你不知道各个段之间的边界怎么定义才合理。那么可以这样子调用 cut 方法：

python 两个表格模糊匹配 pandas两列模糊匹配_python 两个表格模糊匹配_09

cut 方法的第2参数，我们指定3，表示划分3段
不指定参数 labels，这可以看到划分的区间。

你也可以指定 labels：

python 两个表格模糊匹配 pandas两列模糊匹配_python 两个表格模糊匹配_10

最后的划分结果尽可能每个区间数量平衡，来看看各区间的数量：

python 两个表格模糊匹配 pandas两列模糊匹配_pandas 读取所有工作表_11

总结

pd.cut() ，对数据做分箱处理
参数 bins 可以指定自己的规则表，也可以直接指定划分段数目
指定划分段数目时，会自动定义各个划分区间
当指定的 bins 规则表没有升序排序时，会报错

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：nacos 数据不保存在mysql了吗 nacos需要数据库吗

下一篇：android kotlin retorfit 串行请求 kotlin suspendcoroutine

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯