经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

Excel 中的 vlookup 函数有一个模糊查找选项,其内在原理为二分法查找,在 pandas 中同样有一样功能的方法。


场景

如下某物资取货记录:



  • 左表为取货登记,有登记时间和数量
  • 右表为批次库存数量
  • 出库规则为按批次从小到大优先出库,也就是说,批次1被取完,才会取批次2,以此类推
  • 现在希望把左表每个人取货记录标记是哪个批次

问题类似匹配查找,是一种模糊匹配,比如 30 不是直接匹配 30 对应的记录,而是匹配到高于30最近的点(批次表的第一个点50)




Excel解决方法

首先要知道每个人取货之前已经累计被拿了多少数量:



  • 通过简单的固定地址,直接使用 sum 函数即可
  • 第一行的记录比较特殊,这里简单处理,直接手工填充0(复杂处理就会sum公式变复杂一点)

同样道理,处理批次表:



  • 注意把公式写在表的左方,方便后续处理(别跟我说 vlookup 配合数组公式可以右往左匹配,非常讨厌无关逻辑嵌套一起的东西)

现在可以直接使用 vlookup 了:



  • 注意最后一个参数是1,模糊查找
  • 这里有个前提是,右表的数值列必须为升序,否则结果可能出乎意料



pandas解决方法

pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作:



  • 行1、2:加载数据,不多说
  • 行4、5:对2个表排序。这其实是很关键一步,上面 Excel 操作中省去了这2个操作
  • 行7、8:对应 Excel 中的求出"累计列"的操作
  • 行10:pd.cut 相当于模糊查找的 vlookup 。但是这方法比 vlookup 麻烦,每个区间的分割点必需比区间要多1个数量(这符合数据分段逻辑,但不方便数据表操作)
  • 所以在参数 bins 里面,我们特意添加一个比较大的数 1000 上去
  • 参数 right=False ,是让边界值归左边界处理。比如数量50,是属于批次1,而不是批次2

针对上述说的 pd.cut 的缺点,我们可以自定义一个函数,简化操作:



  • 把数据源(参数 x)的总和添加到分段点(参数 bins)中即可
  • 为了让其行为默认与 Excel vlookup 一致,把参数 right 默认值设置为 False

现在调用就清晰很多了: