r语言f检验对回归系数进行显著性检验回归模型f检验显著性

转载

mob64ca140e76c8 2024-08-13 14:07:37

文章标签 r语言f检验对回归系数进行显著性检验数据分析回归数据挖掘回归分析 文章分类 R语言后端开发

相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法
回归分析是寻找存在相关关系的变量间的数学表达式，并进行统计推断的一种统计方法
在对回归分析进行分类时，主要有两种分类方式：

根据变量的数目，可以分类一元回归，多元回归
一元回归：假设有x,y。y只有x一个因素带来的影响
多元回归：只有一个因变量y，自变量x,z,t等有好多个影响
根据自变量与因变量的表现形式，分为线性与非线性

故回归分析包括四个方向：一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析

已知下图很多点（数据）建立回归方程，回归方程（紫色的）把这些点综合考虑进去。会发现有些点在回归方程的上面，有些在下面。在回归线上的点叫做估计值，也就是预测值。已知体重60，不知身高，带入回归方程预测身高。

观测值（实际值）与预测值之间的差值叫做残差。

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_r语言f检验对回归系数进行显著性检验

回归分析的一般步骤：
1.确定回归方程中的解释变量（自变量）和被解释变量（因变量）
2.确定回归模型建立回归方程（用线性或非线性）
3.对回归方程进行各种检验
4.利用回归方程进行预测

一元线性回归分析

因变量（dependent variable)：被预测或被解释的变量，用y表示
自变量（independent variable):预测或解释因变量的一个或多个变量，用x表示
对于具有线性关系的两个变量，可以用一个方程来表示它们之间的线性关系
描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为：
y叫做因变量或被解释变量
x叫做自变量或解释变量
β0 表示截距
β1 表示斜率
ε表示误差项，反映除x和y之间的线性关系之外的随机因素对y的影响，误差项是无法避免的

一元例子：

人均收入是否会显著影响人均食品消费支出
贷款余额是否会影响到不良贷款
航班正点率是否对顾客投诉次数有显著影响

回归方程

描述因变量y的期望值如何依赖于x自变量的方程称为回归方程。根据对一元线性回归模型的假设，可以得到它的回归方程为：

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_r语言f检验对回归系数进行显著性检验_02

如果回归方程中的参数已知，对于一个给定的x值，利用回归方程就能计算出y的期望值
怎么知道β0 ， β1，用数据求出来。用样本统计量代替回归方程中的未知参数，就得到估计的回归方程，简称回归直线

参数的最小二乘法（数据统计学习）

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_回归_03

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_回归_04

高斯分布（正态分布）：中间宽两边窄

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_回归_05

利用回归直线进行估计和预测：

点估计：利用估计的回归方程，对于x的某一个特定的值，求出y的一个估计值就是点估计
区间估计：利用估计的回归方程，对于x的一个特定值，求出y的一个估计值的区间就是区间估计

估计标准误差的计算

为了度量回归方程的可靠性，通常计算各级标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。

估计平均误差：

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_回归_06

公式中根号内的分母是n-2,而不是n，线性关系的约束解释变量的参数，因而自由度为2
估计标准误差越大，则数据点围绕回归直线的分散程度就越大，回归方程的代表性就越小
估计标准误差越小，则数据点围绕回归直线的分散程度越小，回归方程的代表越大，可靠性越高。

置信区间估计：

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_回归分析_07

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_r语言f检验对回归系数进行显著性检验_08

回归直线的拟合优度

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_回归分析_09

总平方和可以分解为回归平方和、残差平方和两部分：SST=SSR+SSE

总平方和（SST),反映因变量的n个观察值与其均值的总离差
回归平方和（SSR),反映了y的总变差中，由于x与y之间的线性关系引起的y的变化部分
残差平方和(SSE),反映了除了x对y的线性影响之外的其他因素对y变差的作用，是不能由回归直线来解释的y的变差部分

判定系数
回归平方和占总平方和的比例，用R^2表示，其值在0到1之间。

R^2 == 0:说明y的变化与x无关，x完全无助于解释y的变差
R^2 == 1:说明残差平方和为0，拟合是完全的，y的变化只与x有关

显著性检验
主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。当建立了估计方程后，还不能马上进行估计或预测，因为该估计方程是根据样本数据得到的，它是否真实的反映了变量x和y之间的关系，则需要通过检验后才能证实。
根据样本数据拟合回归方程时，实际上就已经假定变量x与y之间存在着线性关系，并假定误差项是一个服从正态分布的随机变量，且具有相同的方案。但这些假设是否成立需要验证
显著性检验包括两方面：

线性关系检验
回归系数检验
线性关系检验
线性关系检验师检验自变量x和因变量y之间的线性关系是狗显著，或者说，它们之间能否用一个线性模型来表示。
将均方回归（MSR)同均方残差（MSE)加以比较，应用F检验来分析二者之间的差别是否显著。
均方回归：回归平方和SSR除以相应的自由度（自变量的个数k)
均方残差：残差平方和SSE除以相应的自由度（n-k-1)

回归系数的显著性检验

回归系数显著性检验目的是通过检验回归系统β的值与0是否有显著性差异，来判断Y与X之间是否有显著的线性关系。若β=0，则总体回归方程中不含X项（即Y不随X变动而变动），因此变量Y与X之间并不存在线性关系；若β不等于0，说明变量Y与X之间存在显著的线性关系。

r语言f检验对回归系数进行显著性检验回归模型f检验显著性_r语言f检验对回归系数进行显著性检验_10