在极客时间中的数据思维课程中,关于数据统计中的抽样,有不错的小结,小结如下:
1、简单随机抽样
比如印度疫情下,要统计患病的概率,
我们设印度总人口是 N,我们可以在印度大街上,随机地抽取 m 个访问对
象来去做检测(m 的数值可以根据前面的算法模型来进行确定)。最后根据这 m 个对象的
测试结果,再根据前面的算法模型推算出整体印度新冠患病率。
抽象一下, 简单随机抽样就是从总体 N 个单位中随机地抽取 m 个单位作为样本,使得每
一个样本被抽中的概率相同。 这种抽样的特点在于每个样本单位被抽中的概率相等,每个
样本单位完全独立,彼此间没有关联性和排斥性。
但是简单随机抽样这种方法有一些执行层面的问题。比如在印度大街上很有可能具体执行
的时候,调查人员图方便,仅仅在某几个街区来做调查。然后这几个街区恰好不具有全局
的代表性,数据偏差的问题就随之出现了。
2、
系统抽样
:
为了避免调查人员全都扎堆到某几个地区去做抽样,我们可以立下一个规则,
让每一个街区只能有 10 个人进行调查,并且街区和街区之间不得少于 10 公里。这样的
话,在执行上就会更加容易,也能够更好地确保数据的随机性。
把上面的这个方法再抽象一下, 系统抽样方法就是依据一定的抽样距离,从整体中抽取样
本。 这样做的好处是比较简单而且不容易出错,组装工厂里对手机质量进行抽样检测用的
就是这个方法。
3 分层抽样 :我们在系统抽样的结果之上可以再加一个人口分层,根据年龄、性别、地区这
样的规划分成不同的层。随后我们在每一个细分的层里面,再去随机地抽取样本进行测
试。这样的结果会更接近最终的事实,但是它的执行的复杂性也更高了。
我们再把分层抽样来抽象一下, 分层抽样就是将抽样单位按某种特征或某种规则划分为不
同的层,然后从不同的层中独立、随机地抽取样本,从而保证样本的结构接近于总体的结
构,提高估计的精度
4
整群抽样 :针对在印度没法细分这么多层的情况,我们得把刚才的这些层合并起来形成一
些大组,然后针对这些大组进行抽样。这种方法叫做整群抽样,在企业单位进行人力调查
反馈的时候经常会用到。
抽象一下, 整群抽样就是将总体中若干个单位合并为组(这样的组被称为群),抽样时直
接抽取群,然后对所选群中的所有单位实施调查。 抽样时只需要群的抽样框,可以简化工
作量。你会不会觉得分层抽样和整群抽样不太好区分?告诉你一个分辨小技巧:分层抽样
是先分层再从各层抽样本,整群抽样是先分群再抽一个群调查。
整群抽样方法也有很明显的缺点,那就是精度较差,很可能出现一些偏颇的情况。所以如
果你发现你在员工调查问卷里被贴了一些不切实际的标签,也不用感到特别奇怪——因为
整群抽样不是那么精确。