python 怎么写模糊查询 python模糊查询excel

转载

mob64ca13fe1aa6 2023-12-13 11:35:44

经常听别人说 Python 在数据领域有多厉害，结果学了很长时间，连数据处理都麻烦得要死。后来才发现，原来不是 Python 数据处理厉害，而是他有数据分析神器—— pandas

前言

Excel 中的 vlookup 函数有一个模糊查找选项，其内在原理为二分法查找，在 pandas 中同样有一样功能的方法。

如下某物资取货记录：

问题类似匹配查找，是一种模糊匹配，比如 30 不是直接匹配 30 对应的记录，而是匹配到高于30最近的点(批次表的第一个点50)

首先要知道每个人取货之前已经累计被拿了多少数量：

同样道理，处理批次表：

现在可以直接使用 vlookup 了：

pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作：

行1、2：加载数据，不多说
行4、5：对2个表排序。这其实是很关键一步，上面 Excel 操作中省去了这2个操作
行7、8：对应 Excel 中的求出"累计列"的操作
行10：pd.cut 相当于模糊查找的 vlookup 。但是这方法比 vlookup 麻烦，每个区间的分割点必需比区间要多1个数量(这符合数据分段逻辑，但不方便数据表操作)
所以在参数 bins 里面，我们特意添加一个比较大的数 1000 上去
参数 right=False ，是让边界值归左边界处理。比如数量50，是属于批次1，而不是批次2

针对上述说的 pd.cut 的缺点，我们可以自定义一个函数，简化操作：