1.2 数据的标准化处理

标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即

回归的标准化因变量需要吗 回归分析的标准化系数_方差

一元线性回归

模型:

回归的标准化因变量需要吗 回归分析的标准化系数_数据_02

, ε 是随机误差项,总是假设ε ~N (0 ,σ2),则随机变量,i不等于j时,εi εj相互独立最小二乘估计方法

回归的标准化因变量需要吗 回归分析的标准化系数_方差_03


回归的标准化因变量需要吗 回归分析的标准化系数_回归的标准化因变量需要吗_04

,当 xi yi都是标准化数据时,则有 x(平均)=0, y(平均)=0 ,sx=1,sy=1。,对标准化数据, 1 ˆ β可以表示 y 与 x的相关程度

回归系数的性质

1 . ˆ β1是 yi 的线性组合,它可以写成

回归的标准化因变量需要吗 回归分析的标准化系数_方差_05

回归的标准化因变量需要吗 回归分析的标准化系数_回归的标准化因变量需要吗_06


2 .因为 1 ˆ β是随机变量 y i的线性组合,而 yi 是相互独立、且服从正 态分布的,所以, 1 ˆ β 的抽样分布也服从正态分布。

3.点估计量 1 ˆ β 是总体参数 1 β 的无偏估计

4.估计量 1 ˆ β的方差为

回归的标准化因变量需要吗 回归分析的标准化系数_数据_07


5.对于总体模型中的参数 1 β,在它的所有线性无偏估计量中,小二乘估计量 1 ˆ β具有小的方差。且 0 ˆ β是 0 β的线性无偏的小方差估计量。其它性质

1. 残差和为零。 残差

2. 拟合值 i y ˆ 的平均值等于观测值 i y 的平均值

3 .当第i次试验的残差以相应的自变量取值为权重时,其加权残差和为零

回归的标准化因变量需要吗 回归分析的标准化系数_方差_08


4 .当第i次试验的残差以相应的因变量的拟合值为权重时,其加权残差和为零

回归的标准化因变量需要吗 回归分析的标准化系数_数据_09


5.小二乘回归线总是通过观测数据的重心(x(平均),y(平均))的

拟合效果分析

残差的样本方差MSE

回归的标准化因变量需要吗 回归分析的标准化系数_数据_10


一个好的拟合方程,其残差总和应越小越好。

判定系数(拟合优度)

回归的标准化因变量需要吗 回归分析的标准化系数_数据_11

(1)SSR 越大,用回归方程来解释 i y 变异的部分越大,回归方程对原数据解释得 越好; (2)SSE 越小,观测值 i y 绕回归直线越紧密,回归方程对原数据的拟合效果越好。

回归的标准化因变量需要吗 回归分析的标准化系数_拟合_12


R2 又等于 y 与拟合变量 y ˆ 的相关系数平方,而相关系数的正、负号与回归系数 1 ˆ β

的符号相同

显著性检验

 回归模型的线性关系检验

假设 y=β0+β1*x+ε

H0:β1=0

检验统计量:F=(SSR/1)/(SSE/(n-2)) ~ F(1,n-2) 回归系数的显著性检验

(检验每一个总体参数是否显著不为零)

H0:β1=0

检验统计量:

回归的标准化因变量需要吗 回归分析的标准化系数_拟合_13

~t(n-2) (β0同理)多元线性回归

模型

回归的标准化因变量需要吗 回归分析的标准化系数_拟合_14


参数估计

回归的标准化因变量需要吗 回归分析的标准化系数_方差_15

统计分析

(i) β ˆ 是β 的线性无偏小方差估计

(ii)

回归的标准化因变量需要吗 回归分析的标准化系数_拟合_16


(iii)

回归的标准化因变量需要吗 回归分析的标准化系数_方差_17


(iv) SST=Q+U

回归的标准化因变量需要吗 回归分析的标准化系数_拟合_18


回归模型的假设检验

H0:βj=0 (j=1,…,m)

检验统计量 F=(U/m)/(Q/(n-m-1))~F(m,n-m-1)R2=U/SST R 大于0.8(或 0.9)才认为相关关系成立

回归系数的假设检验和区间估计

(当上面的 H0 被拒绝时, βj不全为零,但是不排除其中若干个等于零)

回归的标准化因变量需要吗 回归分析的标准化系数_拟合_19


回归的标准化因变量需要吗 回归分析的标准化系数_拟合_20


回归的标准化因变量需要吗 回归分析的标准化系数_回归的标准化因变量需要吗_21


( s=sqrt(Q/(n-m-1)) )

利用回归模型进行预测

,但当n 较大且x0i 接近平均值 xi 时, y0 的预测区间可简化为

回归的标准化因变量需要吗 回归分析的标准化系数_方差_22

对 y0 的区间估计方法可用于给出已知数据残差ei=yi-^yi 的置信区间,, e i 服从均值为零的正态分布,所以若某个 e i 的置信区间不包含零点,则认为这个 数据是异常的,可予以剔除。