斯皮尔曼相关系数(Rank IC)可用于特征降维,如两个特征的斯皮尔曼相关系数值很高,则可删除其中一个特征。

斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient),通常用希腊字母 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_希腊字母(rho)表示,是一个衡量两个变量之间单调相关性的统计量

与皮尔逊相关系数不同,斯皮尔曼相关系数是基于数据的等级而非实际数值

这意味着它更适合于非参数数据或当数据的分布未知时使用。

计算公式

斯皮尔曼相关系数的公式可以表示为:

斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_02

其中:

  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_数据_03 是第 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_希腊字母_04 对观测值中,变量 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_05斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_数据集_06等级之差的绝对值。
  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_07观测值的总数。

对公式的每个字符进行解释:

  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_希腊字母_08:斯皮尔曼等级相关系数。
  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_数据_03:第 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_希腊字母_04 对观测值中 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_05斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_数据集_06
  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_希腊字母_13:求和符号,表示对所有观测值 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_希腊字母_04 从 1 到 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_07
  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_07:观测值的总数。
  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_17:这是斯皮尔曼相关系数分母的组成部分,确保了相关系数的值在 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_数据_18

解释

  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_数据集_19 时,表示两个变量完全正相关,即等级差为0,意味着每当一个变量增加时,另一个变量也按同样的顺序增加。
  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_20 时,表示两个变量完全负相关,等级差同样为0,但是增加和减少的顺序相反。
  • 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_数据集_21 时,表示没有单调相关性,即等级差的平方和相对于 斯皮尔曼相关系数(Spearman‘s rank correlation coefficient,Rank IC)_斯皮尔曼相关系数_17 较大,表明等级差是随机的,没有特定的模式。

斯皮尔曼相关系数在金融、生物学、社会科学等领域中广泛使用,特别是在数据可能是有序分类或有异常值的情况下,因为它只关注变量之间的相对顺序,而不是它们的实际数值大小。

这种属性使斯皮尔曼相关系数在分析非线性关系或数据集包含异常值时尤其有用。