【应用统计学】第一类/α/弃真错误与第二类/β/取伪错误的解释与举例

原创

小拍Piper 2022-03-21 14:11:43 博主文章分类：应用统计学 ©著作权

©著作权归作者所有：来自51CTO博客作者小拍Piper的原创作品，请联系作者获取转载授权，否则将追究法律责任

第一类/α/弃真错误与第二类/β/取伪错误的举例与解释

第二类错误

第二类错误，也称取伪错误，或者β错误，是统计学中的一个概念。与β错误一起常常出场的就是α错误（弃真错误/第一类错误）。α错误指：“原假设是正确的，却拒绝了原假设” ，β错误与之相反：“原假设是错误的，却没有拒绝原假设。”

说白了，α错误就是：我认为是这件事是错的，但实际上这件事是对的（所以我犯了α错误）；β错误就是：我认为这件事是对的，但实际上这件事是错的（所以我犯了β错误）。

图解两种错误

α错误

【应用统计学】第一类/α/弃真错误与第二类/β/取伪错误的解释与举例_应用统计学
理解α错误通常采用一个正态分布图配上假设检验案例。现在想通过统计验证μ是不是μ_0，只要统计出来的μ落在了接受域里，那么就认为μ=μ_0不能被拒绝。

真实存在的μ不应该是一个固定值吗？为什么落在接受域里就不拒绝了呢？

这里先讨论μ与分布的关系。我个人的理解是，如果μ=μ_0，那么统计出来所得的μ值分布就是现在的分布。即分布代表了μ值。如果实际上，μ不是这个正态分布的均值，那么实际的μ’也对应一个它自己的分布（而且，这个分布仅仅是向前或者向后偏移而已，假设与实际的西格玛相同，因为假设只考虑μ）。

接着再讨论α的特殊情况，所以如果设α＝0.99，可以想象接受域几乎为“一条缝”。只有当统计出的μ落在了这“一条缝”里，才认为μ=μ_0成立（不拒绝原假设）。而实际上，即便实际的μ=μ_0，统计出来的μ也很有可能落在这条“缝”外面，所以，α=0.99时，犯弃真错误的概率很大。所以有了我们常见的套话：“有1%的把握接受原假设”。（1%来自1-α=1-0.99=0.01）

反过来想，如果α小了，那么把握岂不是变大了？

β错误

我个人观点，假设是否成立，看的就是实际分布与假设分布是否相同。

这样才能更好地理解两种错误。

β分布用质量管理中的控制图来理解。
【应用统计学】第一类/α/弃真错误与第二类/β/取伪错误的解释与举例_质量管理_02
控制图是质量管理传统工具之一。控制图可以检验很多类型的故障，这里只考虑β-risk。通常，对于单个数据点而言，当其落在(LCL,UCL)内，认为系统运行正常。即，如果数据点落在范围外，才认为系统出错（这里认为，系统出错的表现就是实际分布与假设的分布不同。如图，系统出现故障，实际分布偏移了Δ）。

还是对图例进行讨论，如果点落在阴影中，我们认为系统正常。而实际上，分布发生了偏移，系统是存在故障的。所以此时我们犯了取伪错误。

实际的分布服从上面的那条正态曲线，这里证明 β = Φ ( K − t ( n ) ) − Φ ( K − t ( n ) ) \beta=\Phi(K-t\sqrt(n))-\Phi(K-t\sqrt(n)) β=Φ(K−t( n))−Φ(K−t( n))加深理解。也是我质量管理课上的一道作业题，为了弄懂这道题，我对两类错误展开了些有进展的思考。

证明：
β = F ( U C L ) − F ( L C L ) = F ( μ + K σ ) − F ( μ − K σ ) = Φ ( μ + K σ ′ − ( μ + t σ ) σ ′ ) − Φ ( μ − K σ ′ − ( μ + t σ ) σ ′ ) = Φ ( K − t ( n ) ) − Φ ( K − t ( n ) ) \begin{array}{rl} \beta&=F(UCL)-F(LCL)\\ &=F(\mu+K\sigma)-F(\mu-K\sigma)\\ &=\Phi\left( \frac{\mu+K\sigma'-(\mu+t\sigma)}{\sigma'}\right) -\Phi\left(\frac{\mu-K\sigma'-(\mu+t\sigma)}{\sigma'} \right)\\ &=\Phi(K-t\sqrt(n))-\Phi(K-t\sqrt(n)) \end{array} β=F(UCL)−F(LCL)=F(μ+Kσ)−F(μ−Kσ)=Φ(σ′μ+Kσ′−(μ+tσ))−Φ(σ′μ−Kσ′−(μ+tσ))=Φ(K−t( n))−Φ(K−t( n))
其中， σ ′ = σ n \sigma'=\frac{\sigma}{\sqrt{n}} σ′=n σ，因为 σ ′ \sigma' σ′是样本的标准差，我们认为分布都符合这个标准差。K是UCL与LCL的取值系数，通常取3（大名鼎鼎的六西格玛体现之一）。