预测之后的相关估计:
点估计:
在点估计的条件下,平均值 的点估计和个别值的点估计是一样的。但在区间估计不同。

区间估计:
点估计值与实际值之间是有误差的,因此需要进行区间估计。
对于自变量X0,根据回归方程得到因变量y的一个估计区间。
区间估计分为:置信区间估计和预测区间估计。
置信区间估计:
对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间。
预测区间估计:
对于给定自变量x的一个给定值x0,求出因变量y的一个个别值的估计区间,称这一区间为预测区间。相比于上面的置信区间估计要稍微大一点点。
残差:=因变量的观测值-回归方程求出的预测值,反映了用估计的回归方程去预测而引起的误差。
标准化残差:若假定成立,标准化残差也应服从正态分布;
在标准化残差图中,大约有95%的标准化残差在-2到+2之间。
相关系数的性质:

  1. 对称性,rxy=ryx
  2. r的数值大小与x、y的原点和尺度大小无关,即改变x和y的数据原点和尺度大小不改变r的数值大小
  3. r只用来描述线性关系,而不能用于描述非线性关系,也就是说r=0并不意味着两个变量之间没有任何关系,只是没有线性关系。
  4. r不为零不能用来推导出有因果关系。

相关关系的显著性检验:
主要有两种,F检验和t检验,下面是我理解的而二者之间的区别:

  1. F检验
    在这里用到的F检验为一种单侧(右侧)假设检验;
    自由度为(k,n-k-1),其中k为自变量个数,n为观测值个数;
    F检验用来检验总体的相关性,如:在一元线性回归中检验的是线性关系。
  2. t检验
    这里的t检验为双侧的假设检验;
    自由度为(n-k-1),如一元线性回归中就是(n-1-1=n-2);
    t检验主要检验单个回归系数是否显著,如:一元线性回归中就是检验beta1是否为零。