在极客时间中的数据思维课程中,关于数据统计中的抽样,有不错的小结,小结如下:

1、简单随机抽样
   
比如印度疫情下,要统计患病的概率,


我们设印度总人口是 N,我们可以在印度大街上,随机地抽取 m 个访问对


象来去做检测(m 的数值可以根据前面的算法模型来进行确定)。最后根据这 m 个对象的


测试结果,再根据前面的算法模型推算出整体印度新冠患病率。


抽象一下, 简单随机抽样就是从总体 N 个单位中随机地抽取 m 个单位作为样本,使得每


一个样本被抽中的概率相同。 这种抽样的特点在于每个样本单位被抽中的概率相等,每个


样本单位完全独立,彼此间没有关联性和排斥性。

但是简单随机抽样这种方法有一些执行层面的问题。比如在印度大街上很有可能具体执行



的时候,调查人员图方便,仅仅在某几个街区来做调查。然后这几个街区恰好不具有全局



的代表性,数据偏差的问题就随之出现了。

2、  系统抽样
  

为了避免调查人员全都扎堆到某几个地区去做抽样,我们可以立下一个规则,



让每一个街区只能有 10 个人进行调查,并且街区和街区之间不得少于 10 公里。这样的



话,在执行上就会更加容易,也能够更好地确保数据的随机性。



把上面的这个方法再抽象一下, 系统抽样方法就是依据一定的抽样距离,从整体中抽取样



本。 这样做的好处是比较简单而且不容易出错,组装工厂里对手机质量进行抽样检测用的



就是这个方法。




3  分层抽样 :我们在系统抽样的结果之上可以再加一个人口分层,根据年龄、性别、地区这



样的规划分成不同的层。随后我们在每一个细分的层里面,再去随机地抽取样本进行测



试。这样的结果会更接近最终的事实,但是它的执行的复杂性也更高了。



我们再把分层抽样来抽象一下, 分层抽样就是将抽样单位按某种特征或某种规则划分为不



同的层,然后从不同的层中独立、随机地抽取样本,从而保证样本的结构接近于总体的结



构,提高估计的精度

整群抽样 :针对在印度没法细分这么多层的情况,我们得把刚才的这些层合并起来形成一



些大组,然后针对这些大组进行抽样。这种方法叫做整群抽样,在企业单位进行人力调查



反馈的时候经常会用到。



抽象一下, 整群抽样就是将总体中若干个单位合并为组(这样的组被称为群),抽样时直



接抽取群,然后对所选群中的所有单位实施调查。 抽样时只需要群的抽样框,可以简化工



作量。你会不会觉得分层抽样和整群抽样不太好区分?告诉你一个分辨小技巧:分层抽样



是先分层再从各层抽样本,整群抽样是先分群再抽一个群调查。



整群抽样方法也有很明显的缺点,那就是精度较差,很可能出现一些偏颇的情况。所以如



果你发现你在员工调查问卷里被贴了一些不切实际的标签,也不用感到特别奇怪——因为



整群抽样不是那么精确。