python 计算p值

原创

mob64ca12ee66e3 2023-08-10 06:35:29 ©著作权

文章标签 数据假设检验 ci 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12ee66e3的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 计算p值

在统计学中，p值是一种用来评估观察到的数据和假设之间的关系的度量。它是一个概率值，用来描述在原假设为真的情况下，观察到的结果发生的概率。p值的计算可以帮助我们确定观察到的差异是否由随机因素引起，从而判断假设的成立性。

1. p值的定义和计算原理

p值是基于假设检验的统计推断方法中的一个重要概念。在进行假设检验时，我们首先提出一个原假设（null hypothesis），然后根据观察到的数据计算一个p值。p值的定义是：在原假设为真的情况下，观察到的数据或更极端的情况出现的概率。

下面是一个计算p值的示例代码：

import scipy.stats as stats

# 假设检验的例子：比较两个样本的均值是否有显著差异
# 样本数据
sample1 = [1, 2, 3, 4, 5]
sample2 = [2, 4, 6, 8, 10]

# 计算t值和p值
t, p = stats.ttest_ind(sample1, sample2)

print("t值：", t)
print("p值：", p)

在上面的代码中，我们使用了SciPy库的stats模块来进行假设检验。ttest_ind函数用于比较两个样本的均值是否有显著差异。函数的返回值是一个包含t值和p值的元组。

2. 如何解读p值

p值的大小决定了我们对原假设的接受与否。通常，我们使用一个事先确定的显著性水平（significance level）来进行判断。显著性水平一般取0.05或0.01，表示我们愿意将错误拒绝原假设的概率限制在5%或1%以内。

如果计算得到的p值小于显著性水平，我们就有足够的证据拒绝原假设，认为观察到的差异是显著的。反之，如果p值大于显著性水平，我们无法拒绝原假设，即观察到的差异可能是由随机因素引起的。

3. 示例分析

接下来，我们将通过一个具体的示例来演示如何计算p值并进行解读。

假设我们在研究一种新的药物对高血压的疗效。我们从一个有100人的样本中随机选取了50人进行治疗，另外50人作为对照组。在治疗一段时间后，我们记录了每个人的血压值。

首先，我们提出原假设：新药物对高血压的疗效没有显著影响。然后，我们进行假设检验，计算p值。

import numpy as np
import scipy.stats as stats

# 对照组数据
control_group = [140, 142, 145, 148, 150, 152, 154, 156, 158, 160,
                 162, 164, 166, 168, 170, 172, 174, 176, 178, 180,
                 182, 184, 186, 188, 190, 192, 194, 196, 198, 200]

# 实验组数据
treatment_group = [137, 139, 142, 144, 146, 148, 150, 152, 154, 156,
                   158, 160, 162, 164, 166, 168, 170, 172, 174, 176,
                   178, 180, 182, 184, 186, 188, 190, 192, 194, 196]

# 计算t值和p值
t, p = stats.ttest_ind(control_group, treatment_group)

print