在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。

1.变量间关系的度量

1.1变量间的关系

  • 函数关系
    是一一对应的确定关系;变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数(特点是唯一确定
  • 相关关系
    变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定
(1)常用的一些相关关系:

spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平


(2)相关关系的描述与测度


spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_02

1.2相关系数的描述与测度

  • 相关系数的定义:度量变量之间关系强度的一个统计量,对两个变量之间线性相关强度的度量称为简单相关系数记总体相关系数为spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平_03;样本的相关系数为r
  • 样本相关系数的计算公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_04
  • 样本相关系数r的常用性质
    (1)r的取值范围是[-1,1],|r|=1时,两变量完全相关,r=0不存在线性相关关系,小于0时负相关,大于0时正相关;
    (2)r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等;
    (3)r数值大小与x和y原点及尺度无关;
    (4)仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系;
    (5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系
  • 对于相关系数r的经验解释
    (1)|r|>0.8时,可视为两个变量之间高度相关;
    (2)0.5<|r|<0.8时,可视为中度相关;
    (3)0.3<|r|<0.5时,视为低度相关;
    (4)|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关;
    (5)上述解释必须建立在对相关系数的显著性进行检验的基础之上

1.3相关系数的显著性检验

  • 需要知道的性质
    (1)用于检验两个变量之间是否存在线性相关关系;
    (2)等价于对回归系数 spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_05的检验;
    (3)检验方式是t检验。
  • 检验步骤
    (1)提出假设:H0:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平_06 ;H1:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_07;
    (2)计算检验的统计量:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_08
    (3)确定显著性水平spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_09,并作出决策。

2. 一元线性回归

2.1.一元线性回归的几种格式与求解

  • 1、一元线性回归模型spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_10
    (1)模型的特点y 是 x 的线性函数(部分)加上误差项;
    (2)线性部分反映了由于 x 的变化而引起的 y 的变化;
    (3)误差项 spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_11是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的变异性
    (4)spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_12spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_05
  • 一元线性回归模型的假定
    (1)因变量x与自变量y之间具有线性关系;
    (2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机
    (3)误差项ε是一个期望值为0的随机变量,既有:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_14
    (4)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0 ,σ2 )(关于随机误差的理解

spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_15

  • 2、一元线性回归方程spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_14
    (1)spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_12是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值
    (2)spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_05是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值
  • 3、估计的回归方程
    (1)作用:用样本统计量spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_19spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_20 代替回归方程中的未知参数 spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_12spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_05 就得到了估计的回归方程
    (2)估计的回归方程:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_23
  • 用最小二乘法估计回归方程的参数:
    (1)本质:使得spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_24,求法是分别对spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_19spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_20求偏导;
    (2)求解公式:求偏导spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_27
    解得:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平_28

2.2.回归直线的拟合优度检验

  • 误差分解;
  • spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_29

  • 拆分格式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_30
    (1)总平方和SST=spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_31;反映因变量的 n 个观察值与其均值的总误差
    (2)回归平方和SSR=spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平_32;反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
    (3)残差平方和SSE=spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_33。反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和
  • 判定系数spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平_34的计算
    (1)计算公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平_35
    (2)反映回归直线的拟合程度;
    (3)取值范围在 [ 0 , 1 ] 之间;
    (4)判定系数等于相关系数的平方,即spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_36
  • 标椎估计误差的计算:
    (1)计算公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_37
    (2)实际观察值与回归估计值误差平方和的均方根;
    (3)对误差项spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_38的标准差σ2 的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量。

2.3. 显著性检验

  • 线性关系检验
    (1)检验自变量与因变量之间的线性关系是否显著
    (2)计算:将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著,回归平方和SSR除以相应的自由度(自变量的个数k) ,残差平方和SSE除以相应的自由度(n-k-1)。计算公式为:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_贾俊平_39
  • 回归系数检验
    (1)目的:检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著;
    (2)理论基础是回归系数spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_20 的抽样分布
    (3)t检验统计量计算公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_41(等价于相关系数的显著性检验)

3.利用回归方程进行评估和预测

3.1点估计

  • y平均值的点估计
    (1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计
    (2)公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_线性回归_42
  • y个别值的点估计;
    (1)定义:利用估计的回归方程,对于自变量 x 的一个给定值spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_43 ,求出因变量 y 的一个个别值的估计值 spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_统计学_44,就是个别值的点估计
    (2)公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_45

3.2区间估计

  • y平均值的置信区间估计
    (1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间;
    (2)E(spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_46)1-a置信区间水平下的计算公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_47
  • y估计值的预测区间估计
    (1)定义:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间;
    (2)公式:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_48两种区间估计区别在于根号里面(几何区别)
  • spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_49

几者的区别:在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同。

4.残差分析

4.1残差与残差图

*残差
(1)因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示公式为:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_50
(2)反映了用估计的回归方程去预测而引起的误差 ;
(3)作用:可用于确定有关误差项的假定是否成立 。

  • 残差图像
    (1)好坏判别:判断误差项spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_11是否符合假定(均值为零的正态分布)
    (2)一般图像:

标椎化残差

  • 标椎化残差的计算:(残差除以它的标准差):spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_一元线性分析_52即:spss一元线性回归预测值的置信区间步骤 spss求一元线性回归方程_数据分析_53
    (1)作用:用以直观地判断误差项服从正态分布这一假定是否成立 ;
    (2)若假定成立,标准化残差的分布也应服从正态分布;
    (3)在标准化残差图中,大约有95%的标准化残差在-2到+2之间

参考

《统计学》 第7版_贾俊平