问题引出:


当使用最小二乘法解决一下线性回归:

假设:已知x1,x2与y的关系服从线性回归模型:
y=10+2x1+3x2+c
当x1和x2存在线性相关性时,使用最小二乘法来预测回归模型,就变得困难起来,因此物品们必须使用逐步回归。也就是先估计x1,或者x2。这就引出了岭回归


学习内容:


1、 岭回归系数 2、 3、 4、


岭回归系数:


当参数小于特征值时,参数矩阵不满秩,使用最小二乘法来预测回归时,其中一个重要的条件就是满秩,因此最小二乘法不能够使用,从而引出了岭回归参数。 ![岭回归估计]() 当k等于0时,β是最小二乘系数估计,否则β是岭回归估计系数。


岭回归性质:

性质1、 β(k)是回归参数的β的有偏估计。同时有偏性是岭回归的一个重要性质。

性质2、在认为岭参数k是与y无关的常数时,

岭回归公式 岭回归系数_人工智能


β是最小二乘估计β的一个线性变换,也是y的线性参数。

性质3、当k趋向于无穷大时,β的值趋向于0,因此k不能够取太大。

性质4、存在一个k使得均方误差小于最小二乘误差。


岭迹法

零激发选择k值的一般原则是:

  1. 各回归系数的岭估计基本稳定。
  2. 用最小二乘法估计时符号不合理的回归系数,其岭估计的符号变得合理。
  3. 回归系数没有不合乎经济意义的绝对值。
  4. 残差平方和增大的不多。(k是人为加入的偏差值,但是如果K取的过大,尽管会比最小二乘法偏差小,但是也是好不了那里去的。)

方差扩大因子法

VIF(variance inflation factor)方差膨大系数,>10时就会出现多重共线性。
CI条件数,当CI>30时,就有严重的多重共线性。
因此,岭回归就是消除多重共线问题,降低VIF,然后降低CI指标就可以解决多重共线问题。(计算量较大,因此很少采用)。


用岭回归选择变量原则

  1. 剔除掉标准化岭回归系数比较稳定且绝对值很小的变量。
  2. 随着k的增大,回归系数不稳定,且趋于0的自变量可以剔除。
  3. 去掉变量可以使得回归效果变好,就去除那些变量。

最后:

理论总结还有很多不足,希望您能不吝补充!