第一类/α/弃真错误与第二类/β/取伪错误的举例与解释

第二类错误

第二类错误,也称取伪错误,或者β错误,是统计学中的一个概念。与β错误一起常常出场的就是α错误弃真错误/第一类错误)。α错误指:“原假设是正确的,却拒绝了原假设” ,β错误与之相反:“原假设是错误的,却没有拒绝原假设。”

说白了,α错误就是:我认为是这件事是错的,但实际上这件事是对的(所以我犯了α错误);β错误就是:我认为这件事是对的,但实际上这件事是错的(所以我犯了β错误)

图解两种错误

α错误

【应用统计学】第一类/α/弃真错误与第二类/β/取伪错误的解释与举例_应用统计学
理解α错误通常采用一个正态分布图配上假设检验案例。现在想通过统计验证μ是不是μ_0,只要统计出来的μ落在了接受域里,那么就认为μ=μ_0不能被拒绝。

真实存在的μ不应该是一个固定值吗?为什么落在接受域里就不拒绝了呢?

这里先讨论μ与分布的关系。我个人的理解是,如果μ=μ_0,那么统计出来所得的μ值分布就是现在的分布。即分布代表了μ值。如果实际上,μ不是这个正态分布的均值,那么实际的μ’也对应一个它自己的分布(而且,这个分布仅仅是向前或者向后偏移而已,假设与实际的西格玛相同,因为假设只考虑μ)。

接着再讨论α的特殊情况,所以如果设α=0.99,可以想象接受域几乎为“一条缝”。只有当统计出的μ落在了这“一条缝”里,才认为μ=μ_0成立(不拒绝原假设)。而实际上,即便实际的μ=μ_0,统计出来的μ也很有可能落在这条“缝”外面,所以,α=0.99时,犯弃真错误的概率很大。所以有了我们常见的套话:“有1%的把握接受原假设”。(1%来自1-α=1-0.99=0.01)

反过来想,如果α小了,那么把握岂不是变大了?

β错误

我个人观点,假设是否成立,看的就是实际分布与假设分布是否相同。

这样才能更好地理解两种错误。

β分布用质量管理中的控制图来理解。
【应用统计学】第一类/α/弃真错误与第二类/β/取伪错误的解释与举例_质量管理_02
控制图是质量管理传统工具之一。控制图可以检验很多类型的故障,这里只考虑β-risk。通常,对于单个数据点而言,当其落在(LCL,UCL)内,认为系统运行正常。即,如果数据点落在范围外,才认为系统出错(这里认为,系统出错的表现就是实际分布与假设的分布不同。如图,系统出现故障,实际分布偏移了Δ)。

还是对图例进行讨论,如果点落在阴影中,我们认为系统正常。而实际上,分布发生了偏移,系统是存在故障的。所以此时我们犯了取伪错误。

实际的分布服从上面的那条正态曲线,这里证明 β = Φ ( K − t ( n ) ) − Φ ( K − t ( n ) ) \beta=\Phi(K-t\sqrt(n))-\Phi(K-t\sqrt(n)) β=Φ(Kt( n))Φ(Kt( n))加深理解。也是我质量管理课上的一道作业题,为了弄懂这道题,我对两类错误展开了些有进展的思考。

证明:
β = F ( U C L ) − F ( L C L ) = F ( μ + K σ ) − F ( μ − K σ ) = Φ ( μ + K σ ′ − ( μ + t σ ) σ ′ ) − Φ ( μ − K σ ′ − ( μ + t σ ) σ ′ ) = Φ ( K − t ( n ) ) − Φ ( K − t ( n ) ) \begin{array}{rl} \beta&=F(UCL)-F(LCL)\\ &=F(\mu+K\sigma)-F(\mu-K\sigma)\\ &=\Phi\left( \frac{\mu+K\sigma'-(\mu+t\sigma)}{\sigma'}\right) -\Phi\left(\frac{\mu-K\sigma'-(\mu+t\sigma)}{\sigma'} \right)\\ &=\Phi(K-t\sqrt(n))-\Phi(K-t\sqrt(n)) \end{array} β=F(UCL)F(LCL)=F(μ+Kσ)F(μKσ)=Φ(σμ+Kσ(μ+tσ))Φ(σμKσ(μ+tσ))=Φ(Kt( n))Φ(Kt( n))
其中, σ ′ = σ n \sigma'=\frac{\sigma}{\sqrt{n}} σ=n σ,因为 σ ′ \sigma' σ是样本的标准差,我们认为分布都符合这个标准差。K是UCL与LCL的取值系数,通常取3(大名鼎鼎的六西格玛体现之一)。

第一篇CSDN博文,很喜欢Markdown编译器与支持KaTex等公式引擎的环境。这篇文章送给上学期的我,当时理解其两类错误,真的有些吃力。

还请多多指教~