python两次计算相关性数值不一致

原创

mob64ca12e7b5cf 2023-12-16 08:22:25 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e7b5cf的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python两次计算相关性数值不一致

引言

在数据分析领域，相关性是一个重要的概念，用于衡量两个变量之间的关联程度。在Python中，我们可以使用不同的方法来计算相关性，如皮尔逊相关系数、斯皮尔曼相关系数等。然而，有时候我们会发现，使用同样的数据和方法，两次计算得到的相关性数值却不一致。本文将深入探讨这个问题，并给出解决方案。

问题描述

假设我们有两个变量X和Y，它们的取值如下表所示：

X	Y
1	3
2	5
3	7
4	9
5	11

我们首先使用Python的numpy库来计算X和Y之间的相关性，代码如下：

import numpy as np

# 定义X和Y的取值
X = np.array([1, 2, 3, 4, 5])
Y = np.array([3, 5, 7, 9, 11])

# 计算皮尔逊相关系数
pearson_corr = np.corrcoef(X, Y)[0, 1]
print("Pearson correlation coefficient:", pearson_corr)

# 计算斯皮尔曼相关系数
spearman_corr = np.corrcoef(X, Y, rank=True)[0, 1]
print("Spearman correlation coefficient:", spearman_corr)

运行上述代码，我们会得到如下结果：

Pearson correlation coefficient: 1.0
Spearman correlation coefficient: 1.0

问题分析

从上面的代码和结果可以看出，X和Y之间的皮尔逊相关系数和斯皮尔曼相关系数都是1.0，表示两个变量之间存在完全正相关关系。然而，我们可以很明显地看出，X和Y之间并不是完全正相关的关系。这为什么会出现这种情况呢？

要理解这个问题，我们需要深入了解numpy.corrcoef函数的工作原理。numpy.corrcoef函数的返回结果是一个相关系数矩阵，其中每个元素代表两个变量之间的相关系数。相关系数矩阵的计算涉及到数据的标准化过程，即将原始数据转化为均值为0、标准差为1的标准正态分布。这样做的目的是为了消除数据之间的量纲差异对相关性计算的影响。

在我们的例子中，X和Y的取值范围都比较小，而且两个变量之间的关系也比较简单，因此标准化过程对相关性的计算影响不大。然而，对于一些取值范围差异较大、关系复杂的数据，标准化过程可能会引入误差，导致计算得到的相关性数值不准确。

解决方案

为了解决上述问题，我们可以直接使用相关性的计算公式对原始数据进行计算，而不进行标准化。下面是一个自定义函数来计算皮尔逊相关系数的示例代码：

def pearson_corr(x, y):
    n = len(x)
    sum_x = sum(x)
    sum_y = sum(y)
    sum_xy = sum([xi*yi for xi, yi in zip(x, y)])
    sum_x2 = sum([xi**2 for xi in x])
    sum_y2 = sum([yi**2 for yi in y])
    numerator = n * sum_xy - sum_x * sum_y
    denominator = ((n * sum_x2 - sum_x**2) * (n * sum_y2 - sum_y**2)) ** 0.5
    return numerator / denominator

# 使用自定义函数计算皮尔逊相关系数
pearson_corr = pearson_corr(X, Y)
print("Pearson correlation coefficient:", pearson_corr)

运行上述代码，我们会得到如下结果：