数值型自变量和数值型因变量之间关系的分析方法--相关与回归分析
相关与回归是处理变量之间关系的一种统计方法。
(1)从所处理的变量多少来看
若研究的是两个变量之前的关系,则称为简单相关与简单回归分析;
若研究的是两个以上变量之间的关系,则称为多元相关与多元回归;
(2)从变量之间的关系形态来看,有
线性相关与线性回归分析;
非线性相关与非线性回归分析;
统计分析的目的在于根据统计数据确定变量之间的关系形态及关联的程度,并探索内在的数量规律。
人们在实践中发现,变量之间的关系可分为两种类型,即函数关系和相关关系。
函数关系是一一对应的确定关系。
函数关系的特点:当一个变量的取值确定时,另一个变量的取值也得到确定。
相关关系是变量之间存在的不确定的数量关系。
相关关系的特点:
一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。
相关分析就是对两个变量之间线性关系的描述与度量。
相关分析要解决的问题有哪些?
- 变量之间是否存在关系?
- 如果存在关系,它们之间是什么样的关系?
- 变量之间的关系强度如何?
- 样本所反映的变量之间的关系能够代表总体变量之间的关系?
为了解决这些问题,在进行相关分析时, 对总体主要有以下两个假定:
- 两个变量是线性关系。
- 两个变量都是随机变量。
注意:在进行相关分析时,首先需要绘制散点图来判断变量之间的关系形态,如果是线性关系,则可以利用相关关系系数来测度两个变量之间的关系强度,然后对相关系数进行显著性检验,以判断样本所反映的关系能否代表两个变量总体上的关系。
散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。
(一)相关关系的表现形态
相关关系的表现形态大体上可分为
- 线性相关【若变量之间的关系近似地表现为一条直线】--正线性相关和负线性相关
- 非线性相关【若变量之间的关系近似地表现为一条曲线】
- 完全相关【若一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上】--正线性相关和负线性相关
- 不相关【若两个变量的观测点很分散,无任何规律】
在线性相关中,
若两个变量的变动方向相同,一个变量的数值增加,另一个变量的数值也随之增加, 或一个变量的数值减少,另一个变量的数值也随之减少,则称为正相关;
若两个变量的变动方向相反,一个变量的数值增加,另一个变量的数值也随之减少, 或一个变量的数值减少,另一个变量的数值也随之增加,则称为负相关;
一元线性回归
相关分析的目的在于测度变量之间的关系强度,它所使用的测度工具就是相关系数。
回归分析侧重于考察变量之间的数量关系,并通过一定数学表达式将这种关系描述出来,进而确定一个或几个自变量的变化对因变量的影响程度。
回归分析主要解决以下几个方面的问题:
- 从一组样本数据出发,确定变量之间的数学关系式
- 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找到哪些变量的影响显著的, 哪些是不显著的。
- 利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。
一元线性回归模型