python实现pearsonr pearson python

转载

mob6454cc745a10 2023-10-10 17:30:49

文章标签 python实现pearsonr python 概率论机器学习数据分析 文章分类 Python 后端开发

文章目录

一、概述
二、定义

2.1 总体样本定义
2.2 估算样本定义
2.3 两种计算方式
2.4 皮尔森距离

三、python 实现

3.1 生成随机数据集
3.2 绘制散点图
3.3 计算相关系数

3.3.1 自定义函数（无显著性检验）
3.3.2 python 函数

（1）`pandas.corr 函数（无显著性检验）`
（2）`scipy.stats.pearsonr 函数（有显著性检验）`
（3）`pandas.corr 加 scipy.stats.pearsonr 获取相关系数检验P值矩阵`

一、概述

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ，是一种线性相关系数，是最常用的一种相关系数。记为r，用来反映两个变量X和Y的线性相关程度，r 值介于-1到1之间，绝对值越大表明相关性越强。
适用连续变量。
相关系数与相关程度一般划分为
0.8 - 1.0 极强相关
0.6 - 0.8 强相关
0.4 - 0.6 中等程度相关
0.2 - 0.4 弱相关
0.0 - 0.2 极弱相关或无相关

二、定义

2.1 总体样本定义

$python实现pearsonr pearson python_python$
其中， $python实现pearsonr pearson python_python实现pearsonr_02$

2.2 估算样本定义

估算样本的协方差和标准差，可得到样本相关系数（即样本皮尔森相关系数），常用 r 表示：
$python实现pearsonr pearson python_python实现pearsonr_03$
还可以由(Xi,Yi)样本点的标准分数均值估计得到与上式等价的表达式
$python实现pearsonr pearson python_数据分析_04$
其中， $python实现pearsonr pearson python_python实现pearsonr_05$

2.3 两种计算方式

(1)
$python实现pearsonr pearson python_机器学习_06$
(2)
$python实现pearsonr pearson python_概率论_07$

2.4 皮尔森距离

$python实现pearsonr pearson python_python实现pearsonr_08$

三、python 实现

3.1 生成随机数据集

import random
import pandas as pd

n = 10000
X = [random.normalvariate(100, 10) for i in range(n)] # 随机生成服从均值100，标准差10的正态分布序列
Y = [random.normalvariate(100, 10) for i in range(n)] # 随机生成服从均值100，标准差10的正态分布序列
Z = [i*j for i,j in zip(X,Y)]
df = pd.DataFrame({"X":X,"Y":Y,"Z":Z})

python实现pearsonr pearson python_机器学习_09

3.2 绘制散点图

import matplotlib.pyplot as plt 

# 绘制散点图矩阵
pd.plotting.scatter_matrix(df)
plt.show()

python实现pearsonr pearson python_数据分析_10

3.3 计算相关系数

3.3.1 自定义函数（无显著性检验）

import math

def PearsonFirst(X,Y):
    '''
        公式一
    '''
    XY = X*Y
    EX = X.mean()
    EY = Y.mean()
    EX2 = (X**2).mean()
    EY2 = (Y**2).mean()
    EXY = XY.mean()
    numerator = EXY - EX*EY                                 # 分子
    denominator = math.sqrt(EX2-EX**2)*math.sqrt(EY2-EY**2) # 分母
    
    if denominator == 0:
        return 'NaN'
    rhoXY = numerator/denominator
    return rhoXY

def PearsonSecond(X,Y):
    '''
        公式二
    '''
    XY = X*Y
    X2 = X**2
    Y2 = Y**2
    n = len(XY)
    numerator = n*XY.sum() - X.sum()*Y.sum()                                            # 分子
    denominator = math.sqrt(n*X2.sum() - X.sum()**2)*math.sqrt(n*Y2.sum() - Y.sum()**2) # 分母
    
    if denominator == 0:
        return 'NaN'
    rhoXY = numerator/denominator
    return rhoXY 
    
r1 = PearsonFirst(df['X'],df['Z'])  # 使用公式一计算X与Z的相关系数
r2 = PearsonSecond(df['X'],df['Z']) # 使用公式二计算X与Z的相关系数
print("r1: ",r1)
print("r2: ",r2)

python实现pearsonr pearson python_机器学习_11

3.3.2 python 函数

（1）`pandas.corr 函数（无显著性检验）`

参数解析
DataFrame.corr(
method = ‘pearson’, # 可选值为{‘pearson’:‘皮尔森’, ‘kendall’:‘肯德尔秩相关’, ‘spearman’:‘斯皮尔曼’}
min_periods=1 # 样本最少的数据量
)

df.corr(method="pearson")

python实现pearsonr pearson python_概率论_12

（2）`scipy.stats.pearsonr 函数（有显著性检验）`

from scipy.stats import pearsonr

r = pearsonr(df['X'],df['Z'])
print("pearson系数：",r[0])
print("   P-Value：",r[1])

python实现pearsonr pearson python_机器学习_13

（3）`pandas.corr 加 scipy.stats.pearsonr 获取相关系数检验P值矩阵`

def GetPvalue_Pearson(x,y):
    return pearsonr(x,y)[1]

df.corr(method=GetPvalue_Pearson)

python实现pearsonr pearson python_python_14

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：pythongraphics库 pythongraphics库下载

下一篇：sql server自动记录某些数据的持续时间 sqlserver记录操作日志

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python实现pearsonr pearson python

python实现pearsonr pearson python

文章目录

一、概述

二、定义

2.1 总体样本定义

2.2 估算样本定义

2.3 两种计算方式

2.4 皮尔森距离

三、python 实现

3.1 生成随机数据集

3.2 绘制散点图

3.3 计算相关系数

3.3.1 自定义函数（无显著性检验）

3.3.2 python 函数

（1）pandas.corr 函数（无显著性检验）

（2）scipy.stats.pearsonr 函数 （有显著性检验）

（3）pandas.corr 加 scipy.stats.pearsonr 获取相关系数检验P值矩阵

51CTO博客

（1）`pandas.corr 函数（无显著性检验）`

（2）`scipy.stats.pearsonr 函数（有显著性检验）`

（3）`pandas.corr 加 scipy.stats.pearsonr 获取相关系数检验P值矩阵`