spearman相关系数
在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的ρ可以达到+1或-1。
秩相关系数,秩相关系数还有其他类型,比如kendal秩相关系数
-使用Pearson线性相关系数有2个局限:
* 1.必须假设数据是成对地从正态分布中取得的。*
* 2. 数据至少在逻辑范围内是等距的。*
对原始数据xi,yi按从大到小排序,记x’i,y’i为原始xi,yi在排序后列表中的位置,x’i,y’i称为xi,yi的秩次,秩次差di=x’i-y’i。Spearman秩相关系数为:
ρs=1−6∑d2in(n2−1)
位置 | 原始X | 排序后 | 秩次 | 原始Y | 排序后 | 秩次 | 秩次差 |
1 | 12 | 546 | 5 | 1 | 78 | 6 | 1 |
2 | 546 | 45 | 1 | 78 | 46 | 1 | 0 |
3 | 13 | 32 | 4 | 2 | 45 | 5 | 1 |
4 | 45 | 13 | 2 | 46 | 6 | 2 | 0 |
5 | 32 | 12 | 3 | 6 | 2 | 4 | 1 |
6 | 2 | 2 | 6 | 45 | 1 | 3 | -3 |
对于上表数据,算出Spearman秩相关系数为:
1−6(1+1+1+9)6∗(62−1)=0.6571
查阅秩相关系数检验的临界值表
n | 显著水平 | |
0.05 | 0.01 | |
5 | 0.9 | 1 |
6 | 0.829 | 0.943 |
7 | 0.714 | 0.893 |
置信度=1-显著水平。上表显示在n=6的时候,当spearman秩相关系数>=0.829时我们有95%的置信度认为两个随机变量相关,当spearman秩相关系数>=0.943时我们有99%的置信度认为两个随机变量相关。由于0.6571<0.829,即置信度达不到95%,所以我们不能认为X和Y相关。
如果原始数据中有重复值,则在求秩次时要以它们的平均值为准
P值(p-values)
P值是配对t检验(paired t-test)计算过程中得到的结果,用来评估前面所述相关程度计算结果的“显著程度”。在常用统计软件SPSS中,P值(p-value,有时显示为Sig-value)的计算是建立在如下两个假设基础上的:
无效假设(null hypothesis) H0:r=0,两参量间不存在“线性”关联
备择假设(alternative hypothesis) H1:r≠0,两参量间存在“线性”关联
如果计算出的P值很小,比如0.001,则可说“有非常显著的证据拒绝H0假设,相信H1假设,既两参量间存在显著的线性关联”
P值得数值大小没有统计意义,只是将其与某一个阈值进行对比,以得到二选一的结论。关于P值得判断阈值,可参照下面给出的建议:
典型的阈值取为0.05(5%)。因此判断规则如下:
P≤0.05,拒绝无效假设,接受备择假设,即“存在显著的线性关联”;
P>0.05,拒绝无效假设失败。