相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法
回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法
在对回归分析进行分类时,主要有两种分类方式:
- 根据变量的数目,可以分类一元回归,多元回归
一元 回归:假设有x,y。y只有x一个因素带来的影响
多元回归:只有一个因变量y,自变量x,z,t等有好多个影响 - 根据自变量与因变量的表现形式,分为线性与非线性
故回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析
已知下图很多点(数据)建立回归方程,回归方程(紫色的)把这些点综合考虑进去。会发现有些点在回归方程的上面,有些在下面。在回归线上的点叫做估计值,也就是预测值。已知体重60,不知身高,带入回归方程预测身高。
观测值(实际值)与预测值之间的差值叫做残差。
回归分析的一般步骤:
1.确定回归方程中的解释变量(自变量)和被解释变量(因变量)
2.确定回归模型建立回归方程(用线性或非线性)
3.对回归方程进行各种检验
4.利用回归方程进行预测
一元线性回归分析
- 因变量(dependent variable):被预测或被解释的变量,用y表示
- 自变量(independent variable):预测或解释因变量的一个或多个变量,用x表示
- 对于具有线性关系的两个变量,可以用一个方程来表示它们之间的线性关系
- 描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为:
- y叫做因变量或被解释变量
- x叫做自变量或解释变量
- β0 表示截距
- β1 表示斜率
- ε表示误差项,反映除x和y之间的线性关系之外的随机因素对y的影响,误差项是无法避免的
一元例子:
- 人均收入是否会显著影响人均食品消费支出
- 贷款余额是否会影响到不良贷款
- 航班正点率是否对顾客投诉次数有显著影响
回归方程
描述因变量y的期望值如何依赖于x自变量的方程称为回归方程。根据对一元线性回归模型的假设,可以得到它的回归方程为:
- 如果回归方程中的参数已知,对于一个给定的x值,利用回归方程就能计算出y的期望值
- 怎么知道β0 , β1,用数据求出来。用样本统计量代替回归方程中的未知参数,就得到估计的回归方程,简称回归直线
参数的最小二乘法(数据统计学习)
高斯分布(正态分布):中间宽两边窄
利用回归直线进行估计和预测:
- 点估计:利用估计的回归方程,对于x的某一个特定的值,求出y的一个估计值就是点估计
- 区间估计:利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间就是区间估计
估计标准误差的计算
为了度量回归方程的可靠性,通常计算各级标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。
估计平均误差:
- 公式中根号内的分母是n-2,而不是n,线性关系的约束解释变量的参数,因而自由度为2
- 估计标准误差越大,则数据点围绕回归直线的分散程度就越大,回归方程的代表性就越小
- 估计标准误差越小,则数据点围绕回归直线的分散程度越小,回归方程的代表越大,可靠性越高。
置信区间估计:
回归直线的拟合优度
回归直线与各观测点的接近程度称为回归直线对数据的拟合优度
总平方和可以分解为回归平方和、残差平方和两部分:SST=SSR+SSE
- 总平方和(SST),反映因变量的n个观察值与其均值的总离差
- 回归平方和(SSR),反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分
- 残差平方和(SSE),反映了除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分
判定系数
回归平方和占总平方和的比例,用R^2表示,其值在0到1之间。
- R^2 == 0:说明y的变化与x无关,x完全无助于解释y的变差
- R^2 == 1:说明残差平方和为0,拟合是完全的,y的变化只与x有关
显著性检验
主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。当建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得到的,它是否真实的反映了变量x和y之间的关系,则需要通过检验后才能证实。
根据样本数据拟合回归方程时,实际上就已经假定变量x与y之间存在着线性关系,并假定误差项是一个服从正态分布的随机变量,且具有相同的方案。但这些假设是否成立需要验证
显著性检验包括两方面:
- 线性关系检验
- 回归系数检验
线性关系检验
线性关系检验师检验自变量x和因变量y之间的线性关系是狗显著,或者说,它们之间能否用一个线性模型来表示。
将均方回归(MSR)同均方残差(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。 - 均方回归:回归平方和SSR除以相应的自由度(自变量的个数k)
- 均方残差:残差平方和SSE除以相应的自由度(n-k-1)
回归系数的显著性检验
回归系数显著性检验目的是通过检验回归系统β的值与0是否有显著性差异,来判断Y与X之间是否有显著的线性关系。若β=0,则总体回归方程中不含X项(即Y不随X变动而变动),因此变量Y与X之间并不存在线性关系;若β不等于0,说明变量Y与X之间存在显著的线性关系。
线性关系检验与回归系数检验的区别:
线性关系的检验是检验自变量与因变量是否可以用线性表示,而回归系数的检验是对样本数据计算的回归系数检验总体中回归系数是否为0
- 在一元线性回归中,自变量只有一个,线性关系检验与回归系数检验师等价的
- 多元回归分析中,这两种检验的意义不同。线性关系检验只能用来检验总体回归关系的显著性,而回归系数检验可以对各个回归系数分别进行检验
多元线性回归分析
经常会遇到某一现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况,这时需哟弄个多元线性回归关系分析。
- 多元线性回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测和控制的方法
- 多元线性回归预测模型一般式为:
调整的多重判定系数:
用样本容量n和自变量的个数K去修正R^2得到:
曲线回归分析
曲线回归分析的基本任务是通过两个相关变量X与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线练习的形式
曲线回归分析最困难和首要任务是确定自变量和因变量间的曲线关系类型,曲线回归分析的基本过程:
- 先将x或y进行变量转换
- 对新变量进行直线回归分析,建立直线回归方程并进行显著性检验和区间估计
- 将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间