统计学中,一般将变量与变量之间的关系划分为函数关系和相关关系。
函数关系:因变量与自变量之间存在函数式关系。当一个变量或几个变量取一定的值时,另一个变量有确定值。例如,当给出圆的半径r时,就可以根据S=πr2,计算出圆面积S。
相关关系:因变量与自变量之间存在非严格的依存关系。当一个变量或几个变量取定一个数值时,另一个对应变量的数值是不确定的。但是,该变量的数值却是随着前述变量的所取数值而发生一定的变化规律。例如,人的身高与体重之间的关系就属于相关关系。
通常在分析多组数据之间的关系时,首先通过相关分析确定数据之间的相关关系,然后再通过回归分析确定数据之间的函数关系。
一、相关(注重研究变量之间相关性和相关程度)
按相关的程度可分为完全相关、不完全相关、不相关。
按相关的方向分为正相关和负相关。
按相关的形式分为线性相关和非线性相关。
线性相关:当变量之间的关系可以通过线性方程表达时,它们的关系就是线性相关,当只有两个变量时,线性关系表现为直线(一元线性关系)如下图,非线性关系表现为曲线。
协方差:
协方差在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差的正负性反映了两个变量的变化趋势是否一致,协方差绝对值大小反映了两个变量变化的一致程度。
协方差定义式:
相关系数r:是研究变量之间线性相关程度的量,两个变量相关系数的定义为协方差与变量标准差乘积之比。
(线性)相关系数定义式为:
,
代表数值X的样本标准差,
数值Y的样本标准差。当
为负,则两变量之间存在负线性相关关系,越接近-1,相关性越强,值 = -1时,完全负线性相关。当
为正,则两变量之间存在正线性相关关系,越接近1,相关性越强,值 = 1时,完全正线性相关。当
接近0时,线性相关性减弱,值 = 0时,不存在相关性。
决定系数
(相关系数的平方):决定系数越接近1,越能通过x预测y;越接近0,则无法预测。
二、回归(注重研究变量之间的关系模型)
当确定变量之间存在线性关系,需要确定变量之间的函数式,当变量个数=2,需要找到接近所有数据点的最佳拟合直线。
假定直线:y = ax + b,则需要最小化SSE求出参数a, b。
SSE:误差平方和。
计算参数a:
因为
,所以变形可得到
,即相关系数和拟合线斜率的关系。计算参数b:通过x和y的均值计算b,