机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）

原创

wx5822a6c7c2782 2022-10-23 00:46:39 博主文章分类：机器学习中的数学 ©著作权

文章标签 人工智能机器学习深度学习抽样蓄水池抽样 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者wx5822a6c7c2782的原创作品，请联系作者获取转载授权，否则将追究法律责任

蓄水池抽样算法（Reservoir Sampling Algorithm）解决了未知长度数据的均匀抽样问题，即：给定一个数据流，数据流长度 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能$ 很大，且 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能$ 直到处理完所有数据之前都不可知，请问如何在只遍历一遍数据的情况下，能够随机选取出 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_03$ 个不重复的数据，且每个数据被取到的概率都为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_04$ ？

这个问题有3个主要难点：

数据流长度 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_05$ 很大且不可知，不能一次性存入内存
算法时间复杂度为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_06$
随机选取 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_07$ 个数，每个数被选中的概率为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_08$

第1点主要说明由于我们无法直接确定 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能$ ，导致我们无法直接求出每个数被取到的概率 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_04$ ，也就不能直接取 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能$ 内的 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_03$ 个随机数，然后按索引取出数据。第2点限制了不能先遍历一遍得到数据总量 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能$ ，然后分块存储数据，再随机选取。第3点是数据选取绝对随机的保证。

蓄水池抽样算法（Reservoir Sampling Algorithm）
输入：数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_14$
（ 1 ）初始化长度为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_15$ 结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$
（ 2 ）初始化数组读入索引 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_17$
（ 3 ） while 数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_14$ 未遍历到末尾
（ 4 ） $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_19$ if $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_20$
（ 5 ） $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_21$ 将 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_22$ 加入到结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$
（ 6 ） $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_19$ else
（ 7 ） $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_21$ 在 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_26$ 随机取一个整数 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_27$ ，若 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_27$ 在 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_29$ 范围内，则将 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_22$ 存入 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_31$
（ 8 ） $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_19$ $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_33$
（ 9 ）return 数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$

蓄水池抽样算法（Reservoir Sampling Algorithm）的精妙之处在于，对于未知长度 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能$ 的数组，其每个数被选中的概率都为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_04$ 。设 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_37$ 为未知长度数组的数据索引（从0开始），则：

若 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_38$ ：这些数据直接被存入结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_39$ ，遍历结束时仍留在结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_39$ 的概率为： $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_41$
若 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_42$ ：这些数据被存入数组的概率为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_43$ ，被存入数组的概率为且遍历结束时仍留在结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_39$ 的概率为： $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_45$

若数据量过于庞大，需要使用 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_46$ 台机器处理数据，则可以使用分布式蓄水池抽样算法：

分布式蓄水池抽样算法
输入：数据流 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_14$ ；机器总数 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_48$
（ 1 ）将数据流分成 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_48$ 份： $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_50$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_51$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_52$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_53$ 或依次向 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_48$ 台机器输入数据
（ 2 ）每台机器单独使用蓄水池抽样算法，抽样 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_15$ 个数据 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_56$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_57$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_52$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_59$ ，并统计单台机器的数据总量 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_60$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_61$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_52$ 、 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_63$
（ 3 ）计算数据总量 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_64$ 并初始化长度为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_15$ 最终结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$
（ 4 ） for $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_67$
（ 5 ） $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_19$ 在 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_69$ 随机取一个整数 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_27$
（ 6 ） $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_19$ 若 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_72$ ，则从 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_56$ 中无放回的随机抽取一个数据放入最终结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$ ；若 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_75$ ，则从 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_57$ 中无放回的随机抽取一个数据放入最终结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$ ； $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_人工智能_52$ ；若 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_79$ ，则从 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_59$ 中无放回的随机抽取一个数据放入最终结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$
（ 7 ）return 最终结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_深度学习_16$

我们现在来验证一下分布式蓄水池抽样算法每个数据被抽到的概率是否为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_04$ :

对于第 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_84$ 台机器中的数据，被抽中到第 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_84$ 台机器的结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_86$ 的概率为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_87$
$机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_抽样_07$ 次循环后，每个数据被选入最终结果数组 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_机器学习_39$ 的概率为 $机器学习中的数学——蓄水池抽样算法（Reservoir Sampling Algorithm）_蓄水池抽样_90$