单样本是否服从正态分布 R语言样本是否符合正态分布

转载

mob64ca14133dc6 2023-11-27 11:21:38

文章标签 单样本是否服从正态分布 R语言科技正态分布数据 hapi 文章分类 R语言后端开发

文章目录

什么是正态分布
如何检验正态分布

1.JB检验（样本数据n>30)
2.Shapiro-wilk检验(样本数据50>n>3)
Q-Q图检验（要求数据量非常大）

什么是正态分布

正态分布，也称高斯分布，是以天才卡尔 · 弗里德里希 · 高斯的名字命名的。

当我们画出正态分布曲线时，我们可以看出该曲线是一个钟形的曲线，如果变量的均值、模和中值相等，那么该变量呈现正态分布。

单样本是否服从正态分布 R语言样本是否符合正态分布_hapi

正态分布只依赖与数据的两个指标：样本的均值和方差

均值：样本所有数据的平均值
方差：衡量样本全部数据偏离均值的程度

同时，正态分布非常容易解释，因为：

正态分布的均值、模和中位数都是相等的
我们只需要用均值和标准差就能解释整个分布

此外，值得注意的是：生活中有大部分的变量都近似服从正态分布。

那为何如此多的变量都近似服从正态分布呢？这是由于中心极限定理。
（这里我就是稍微提一下，感兴趣的小伙伴可以去学习一下概率论）

如何检验正态分布

在数学建模中，我们在使用皮尔逊相关系数时首先会检验变量是否服从正态分布和线性相关，线性相关可以通过我们的散点图得知，而是否服从正态分布也有相应的检验方法。

1.JB检验（样本数据n>30)

雅克-贝拉检验（Jarque-Bera test）
对于一个随机变量 $单样本是否服从正态分布 R语言样本是否符合正态分布_hapi_02$ , 假设其偏度为 $单样本是否服从正态分布 R语言样本是否符合正态分布_正态分布_03$ , 峰度为 $单样本是否服从正态分布 R语言样本是否符合正态分布_hapi_04$ , 那么我们可以构造 $单样本是否服从正态分布 R语言样本是否符合正态分布_数据_05$ 统计量：
$单样本是否服从正态分布 R语言样本是否符合正态分布_科技_06$
可以证明，如果 $单样本是否服从正态分布 R语言样本是否符合正态分布_hapi_02$ 是正态分布，那么在n>30情况下 $单样本是否服从正态分布 R语言样本是否符合正态分布_科技_08$ （自由度为2的卡方分布）。

注：正态分布的偏度为0，峰度为3。

偏度：表示概率分布密度曲线相对于平均值不对称程度。
峰度：表示概率密度分布曲线在平均值处峰值高低，反映了峰部的尖度。

MATLAB中JB检验函数：[h,p]=jbtest(X,alpha)

当输出的h为1时，表示在95%置信水平下接受 数据符合正态分布 的假设；h为0时代表在95%置信水平下拒绝 数据符合正态分布 的假设。

alpha为显著性水平（一般取0.05），显著性水平+置信水平=1。

n_c=size(X,2);  %求数据的列数（变量个数）
H=zeros(1,n_c);
P=zeros(1,n_c);  %初始化矩阵
for i=1:n_c
     [h,p]=jbtest(X(:,i),0.05);   %进行JB检验
     H(i)=h;
     P(i)=p;    %储存每列数据的h和p值
end
disp(H);
disp(P);