python算t检验的p值 t检验怎么求p值

转载

mob64ca140e0490 2024-01-05 15:58:15

文章标签 python算t检验的p值统计学卡方检验临界值标准差 文章分类 Python 后端开发

1、零假设

首先假定零假设成立，然后求出某统计量达到如此极端的概率是多少

定义零假设，如果得到的值大于表上的值，则出现零假设的概率很小，则拒绝零假设

2、假设检验

2.1、T检验

总体标准差σ未知的正态分布。

单总体检验和双总体检验。

(1)单总体检验

当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。

t统计量公式为：

$$t = \frac{\overline{x}-μ}{S/\sqrt{n}}\sim t(n-1)$$

由于t统计量服从自由度为n-1的t分布，在算出结果后可以通过查表得到“P值”，

这个结果表明，在整体均值为μ的情况下，样本均值X小于μ的概率不足“P值”，则能拒绝原假设。

(2)双总体样本检验，包括独立样本t检验和配对样本t检验

独立样本t检验：

检验两个独立样本所代表的总体均值差异是否显著。

适用条件：

1.两样本均来自于正态总体

2.两样本相互独立

3.满足方差齐性（通过方差齐性检验）

方差齐性检验（Homogeneity of variance test）是数理统计学中检查不同样本的总体方差是否相同的一种方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。常用方法有：Hartley检验、Bartlett检验、修正的Bartlett检验

统计量：

$$t = \frac{\overline{x}-\overline{y}}{^{S_{w}}\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2)$$
其中
$$S_{w} = \frac{1}{m+n+1}[(m-1)S_{1}^{2}+(n-1)S_2^2]$$

2.2、F检验

F检验又叫方差齐性检验，目的是判断两个样本的总体方差是否相等，计算双总体样本检验的前提条件。

2.3、卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。

通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%，两者的差别可能是抽样误差导致，也有可能是牛奶对感冒率真的有影响。

为了确定真实原因，我们先假设喝牛奶对感冒发病率是没有影响的，即喝牛奶喝感冒时独立无关的，所以我们可以得出感冒的发病率实际是（43+28）/（43+28+96+84）= 28.29%

	感冒人数	未感冒人数	合计	感冒率
喝牛奶组	43	96	139	30.94%
不喝牛奶组	28	84	112	25.00%
合计	71	180	251	28.29%

所以，理论的四格表应该如下表所示：

	感冒人数	未感冒人数	合计
喝牛奶组	*=1390.2829**	*=139(1-0.2829)**	139
不喝牛奶组	*=1120.2829**	*=112(1-0.2829)**	112

即下表：

	感冒人数	未感冒人数	合计
喝牛奶组	39.3231	99.6769	139
不喝牛奶组	31.6848	80.3152	112
合计	71	180	251

卡方检验

卡方检验的计算公式为：

$$X^2 = \sum\frac{(A-T)^2}{T}$$

其中，A为实际值，T为理论值。

x2用于衡量实际值与理论值的差异程度（也就是卡方检验的核心思想），包含了以下两个信息：

1. 实际值与理论值偏差的绝对大小（由于平方的存在，差异是被放大的）

2. 差异程度与理论值的相对大小

根据卡方检验公式我们可以得出例1的卡方值为：

卡方 = (43 - 39.3231)平方 / 39.3231 + (28 - 31.6848)平方 / 31.6848 + (96 - 99.6769)平方 / 99.6769 + (84 - 80.3152)平方 / 80.3152 = 1.077

卡方分布的临界值：

上一步我们得到了卡方的值，但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的？也就是说，怎么知道无关性假设是否可靠？

答案是，通过查询卡方分布的临界值表。

这里需要用到一个自由度的概念，自由度等于V = (行数 - 1) * (列数 - 1)，对四格表，自由度V = 1。

对V = 1，喝牛奶和感冒95%概率不相关的卡方分布的临界概率是：3.84。即如果卡方大于3.84，则认为喝牛奶和感冒有95%的概率不相关。

显然1.077<3.84，没有达到卡方分布的临界值，所以喝牛奶和感冒独立不相关的假设不成立。

python算t检验的p值 t检验怎么求p值_标准差

3、自由度

定义：自由变动的样本观测值的数目

自由度的设定是出于这样一个理由：在总体平均数未知时，用样本平均数去计算离差（常用小s）会受到一个限制——要计算标准差（小s）就必须先知道样本平均数，而样本平均数和n都知道的情况下，数据的总和就是一个常数了。所以，“最后一个”样本数据就不可以变了，因为它要是变，总和就变了，而这是不允许的。至于有的自由度是n－2什么的，都是同样道理。

在计算作为估计量的统计量时，引进一个统计量就会失去一个自由度。

通俗点说，一个班上有50个人，我们知道他们语文成绩平均分为80，现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩，但是最后一个人的你不能瞎说，因为平均分已经固定下来了，自由度少一个了。

4、总结

本文介绍了零假设的概念；几种常用的检验方式，包括：T检验，F检验，卡方检验；自由度的概念，至于不甚清晰的地方以后再补充。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。