关于数据统计中的抽样小结

原创

mb5c80f4c73b73a 2022-12-02 10:24:29 ©著作权

©著作权归作者所有：来自51CTO博客作者mb5c80f4c73b73a的原创作品，请联系作者获取转载授权，否则将追究法律责任

在极客时间中的数据思维课程中，关于数据统计中的抽样，有不错的小结，小结如下:

1、简单随机抽样
比如印度疫情下，要统计患病的概率，

我们设印度总人口是 N，我们可以在印度大街上，随机地抽取 m 个访问对

象来去做检测（m 的数值可以根据前面的算法模型来进行确定）。最后根据这 m 个对象的

测试结果，再根据前面的算法模型推算出整体印度新冠患病率。

抽象一下， 简单随机抽样就是从总体 N 个单位中随机地抽取 m 个单位作为样本，使得每

一个样本被抽中的概率相同。 这种抽样的特点在于每个样本单位被抽中的概率相等，每个

样本单位完全独立，彼此间没有关联性和排斥性。

但是简单随机抽样这种方法有一些执行层面的问题。比如在印度大街上很有可能具体执行

的时候，调查人员图方便，仅仅在某几个街区来做调查。然后这几个街区恰好不具有全局

的代表性，数据偏差的问题就随之出现了。

2、 系统抽样 ：

为了避免调查人员全都扎堆到某几个地区去做抽样，我们可以立下一个规则，

让每一个街区只能有 10 个人进行调查，并且街区和街区之间不得少于 10 公里。这样的

话，在执行上就会更加容易，也能够更好地确保数据的随机性。

把上面的这个方法再抽象一下， 系统抽样方法就是依据一定的抽样距离，从整体中抽取样

本。这样做的好处是比较简单而且不容易出错，组装工厂里对手机质量进行抽样检测用的

就是这个方法。

3 分层抽样 ：我们在系统抽样的结果之上可以再加一个人口分层，根据年龄、性别、地区这

样的规划分成不同的层。随后我们在每一个细分的层里面，再去随机地抽取样本进行测

试。这样的结果会更接近最终的事实，但是它的执行的复杂性也更高了。

我们再把分层抽样来抽象一下， 分层抽样就是将抽样单位按某种特征或某种规则划分为不

同的层，然后从不同的层中独立、随机地抽取样本，从而保证样本的结构接近于总体的结

构，提高估计的精度

4

整群抽样 ：针对在印度没法细分这么多层的情况，我们得把刚才的这些层合并起来形成一

些大组，然后针对这些大组进行抽样。这种方法叫做整群抽样，在企业单位进行人力调查

反馈的时候经常会用到。

抽象一下， 整群抽样就是将总体中若干个单位合并为组（这样的组被称为群），抽样时直

接抽取群，然后对所选群中的所有单位实施调查。 抽样时只需要群的抽样框，可以简化工

作量。你会不会觉得分层抽样和整群抽样不太好区分？告诉你一个分辨小技巧：分层抽样

是先分层再从各层抽样本，整群抽样是先分群再抽一个群调查。

整群抽样方法也有很明显的缺点，那就是精度较差，很可能出现一些偏颇的情况。所以如

果你发现你在员工调查问卷里被贴了一些不切实际的标签，也不用感到特别奇怪——因为

整群抽样不是那么精确。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯