统计学nb。当笔者使用SPSS,或者调用很多sk-learn函数包时,常常会用并不是最难的,会选择包,会阅读结果,会得出统计学答案才是最难的。

T-Value

T-value 就是组间差异与组内差异的比值。
ttest t值 ttest t值越大_数据分析
其中SE指Standard Error。

单样本T值

对于单样本来说
ttest t值 ttest t值越大_统计学_02
其中m为样本均值,ttest t值 ttest t值越大_统计学_03为理论均值,s是样本标准差,n是样本量。

阈值和结果阅读

如果第一组均值大于第二组均值,则t值将为正;如果较小,则t值将为负。
一旦T值确定,则必须在阅读t检验表(见附录)

ttest t值 ttest t值越大_机器学习_04选定0.05,自由度dF:
ttest t值 ttest t值越大_机器学习_05

T-test解释

t检验评估两组的均值是否在统计学上彼此不同。每当您想比较两组均值时,此分析都是合适的,尤其适合作为posttest-only two-group randomized experimental design.

ttest t值 ttest t值越大_机器学习_06


但上图仅仅是一个理想分布,实际情况中,由于结果的可变范围不同,在相同的均值差下,可能看起来会有几乎完全不同的效果,如下图:

ttest t值 ttest t值越大_ttest t值_07

当我们查看两组分数之间的差异时,我们必须判断其均值相对于分数分布或变异性的差异。T检验就是这样做的。

ttest t值 ttest t值越大_统计学_08

T-Test单双尾检验选择

t -test 首先要服从正态分布,如果不服从正态分布,可以使用非参数检验

ttest t值 ttest t值越大_机器学习_09

附录:T-test表

ttest t值 ttest t值越大_机器学习_10


扩展阅读

同方差(pooled variances)t-test

ttest t值 ttest t值越大_ttest t值_11
其中
ttest t值 ttest t值越大_统计学_12

异方差(separate variance)t-test

ttest t值 ttest t值越大_ttest t值_13

其中

ttest t值 ttest t值越大_机器学习_14

配对样本 T 检验(paired t-test)

如果对相同的人或事,有两个测量值(before/after)选择配对 T 检验。

要比较配对样本的均值,首先要计算出所有配对的差值 d。

ttest t值 ttest t值越大_数据分析_15


m:d 的平均值;

s:d 的标准差;

n:d 的数量。

自由度: ttest t值 ttest t值越大_算法_16

机器学习中使用T-Test做特征筛选

机器学习中有三种特征筛选方法:

  • Filter approach和“任务”无关
  • Wrapper approach用predictor来评估参数,和任务有关
  • Embedding approach用predictor来构建一个模型,之后用模型来选择,Lasso也属于这里

使用T-test做二分类问题的参数选择如下图:右侧是比较好的特征

ttest t值 ttest t值越大_数据分析_17

T-Test的R语言实战

https://zhuanlan.zhihu.com/p/38243421

参考文献