差异显著性分析 python 差异显著性分析公式

转载

autohost 2024-01-05 21:35:06

文章标签 差异显著性分析 python 方差分析协方差标准差 文章分类 Python 后端开发

单变量方差分析

方差分析的主要功能就是验证两组样本，或者两组以上的样本均值是否有显著性差异（是否一致）。

这里有两个大点需要注意：①方差分析的原假设是：样本不存在显著性差异（即，均值完全相等）；②两样本数据无交互作用（即，样本数据独立）这一点在双因素方差分析中判断两因素是否独立时用。

原理

方差分析的原理就一个方程： SS T = SS M + SS E (全部平方和=模型平方和+误差平方和)

方差分析看的最终结果看的统计量是：F统计量、R2。

F=[SSM/(S-1)]/[SSE/(N-S)] S水平个数，S-1模型只有度，N-S误差自由度。

R2=SSM/SST （具体过程看笔记）

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。

主要就是看看计算的值与该自由度下0.05置信区间的卡方分位数的比较

T检验，主要是用于小样本（样本容量小于30）的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率，从而判定两个平均数的差异是否显著。 T检验的适用条件：正态分布资料。

1、建立虚无假设 H 0 :μ 1 = μ 2 ，即先假定两个总体平均数之间没有显著差异；

　　2、计算统计量t值，对于不同类型的问题选用不同的统计量计算方法；

　　1）如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度，其统计量t值的计算公式为：

　　2）如果要评断两组样本平均数之间的差异程度，其统计量t值的计算公式为：

　　3、根据自由度df=n-1，查t值表，找出规定的t理论值并进行比较。理论值差异的显著水平为0.01级或0.05级。不同自由度的显著水平理论值记为t(df)0.01和t(df)0.05

　　4、比较计算得到的t值和理论t值，推断发生的概率，依据下表给出的t值与差异显著性关系表作出判断。

T值与差异显著性关系表
t	P值	差异显著程度
		差异非常显著
		差异显著
t < t(df)0.05	P > 0.05	差异不显著

　　5、根据是以上分析，结合具体情况，作出结论。

F检验实际上是方差分析里面的一个值，至於F-检定，方差分析(或译变异数分析，Analysis of Variance)，它的原理大致也是上面说的，但它是透过检视变量的方差而进行的。它主要用于：均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。

多重共线性了.

还有就是看模型中所用的变量之间会不会明显相关,就像,货币供应量和工资之类的.

可以尝试直接联立两个变量的方差,看变量间的R平方是不是很接近1,越接近1,说明多重共线性越明显.

皮尔逊相关系数：

要理解Pearson相关系数，首先要理解协方差（Covariance），协方差是一个反映两个随机变量相关程度的指标，如果一个变量跟随着另一个变量同时变大或者变小，那么这两个变量的协方差就是正值，反之相反，公式如下：

Pearson相关系数公式如下：

由公式可知，Pearson相关系数是用协方差除以两个变量的标准差得到的

为了更好的度量两个随机变量的相关程度，引入了Pearson相关系数，其在协方差的基础上除以了两个随机变量的标准差，容易得出，pearson是一个介于-1和1之间的值，当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。