一、Least squares最小二乘回归(高斯似然+均匀先验)

因为先验是均匀分布,因此求最小二乘回归即求高斯最大似然。

ivregress 2sls适用性_人工智能

ivregress 2sls适用性_人工智能_02

在泛化的线性模型里,x为多项式基:

ivregress 2sls适用性_ivregress 2sls适用性_03

ivregress 2sls适用性_数据结构与算法_04

高斯似然函数为:

ivregress 2sls适用性_权重_05

让似然函数最大,即令残差平方和RSS最小,RSS/N即为均方误差MSE。-log似然(NLL)对w求偏导等于0,得:

ivregress 2sls适用性_权重_06

 

ivregress 2sls适用性_最小二乘_07

*注:最小二乘回归计算方法

1.数值计算(有解析解,精确,但速度慢)

a. QR分解:稳定

ivregress 2sls适用性_数据结构与算法_08

ivregress 2sls适用性_ivregress 2sls适用性_09

b. SVD奇异值分解(广义的特征值分解)

ivregress 2sls适用性_最小二乘_10

SVD分解,得右奇异向量:

ivregress 2sls适用性_最小二乘_11

奇异值:

ivregress 2sls适用性_最小二乘_12

左奇异向量:

ivregress 2sls适用性_最小二乘_13

最小二乘计算结果:

ivregress 2sls适用性_数据结构与算法_14

2.梯度下降法(有数值解,速度快。利用所有样本,也称批处理梯度下降)

ivregress 2sls适用性_人工智能_15

ivregress 2sls适用性_数据结构与算法_16

ivregress 2sls适用性_权重_17

3.随机梯度下降法(SGD,每次只用一个样本,速度更快,用于在线学习)

ivregress 2sls适用性_权重_18

 

二、Rige岭回归(高斯似然+高斯先验(L2正则))

先验:

ivregress 2sls适用性_ivregress 2sls适用性_19

似然:

ivregress 2sls适用性_数据结构与算法_20

后验:

ivregress 2sls适用性_人工智能_21

后验函数对w求偏导等于0得:

ivregress 2sls适用性_权重_22

,其中:

ivregress 2sls适用性_最小二乘_23

*注:岭回归计算方法

1.解析解

a. QR分解

ivregress 2sls适用性_人工智能_24

,其中

ivregress 2sls适用性_ivregress 2sls适用性_25

ivregress 2sls适用性_ivregress 2sls适用性_26

b. SVD分解

ivregress 2sls适用性_ivregress 2sls适用性_27

SVD与主成分的关系:特征值越大,方差越大。

ivregress 2sls适用性_数据结构与算法_28

ivregress 2sls适用性_ivregress 2sls适用性_29

 

三、Robust regression鲁棒线性回归(Laplace/Student似然+均匀先验)

因为先验服从均匀分布,所以求鲁棒线性回归即求Laplace/Student最大似然。在heavy tail(奇异点较多)情况下用鲁棒线性回归,因为Laplace/Student分布比高斯分布更鲁棒。

ivregress 2sls适用性_权重_30

ivregress 2sls适用性_最小二乘_31

似然函数为:

ivregress 2sls适用性_权重_32

由于零点不可微,所以求解析解困难,无法使用梯度下降法。引入Huber损失函数解决此问题:

ivregress 2sls适用性_ivregress 2sls适用性_33

 

四、Lasso回归(Least absolute shrinkage and selection operator,高斯似然+Laplace先验)

Laplace先验除了加罚项外,还有特征选择的作用。因为加高斯先验,w绝大多数不为0;而Laplace先验使w大多数为0,降低了模型复杂度的同时选择了特征,如下图:

ivregress 2sls适用性_权重_34

Lasso目标:最小化损失函数

ivregress 2sls适用性_权重_35

零点不可微:引入子梯度。如f(x)=|x|,其子梯度为:

ivregress 2sls适用性_人工智能_36

可微项梯度:

ivregress 2sls适用性_权重_37

ivregress 2sls适用性_最小二乘_38

ivregress 2sls适用性_最小二乘_39

目标函数子梯度为:

ivregress 2sls适用性_ivregress 2sls适用性_40

ivregress 2sls适用性_数据结构与算法_41

根据Cj的不同,可分为下面三种情况

ivregress 2sls适用性_数据结构与算法_42

综上,对于给定的lamda,最佳权重为:

ivregress 2sls适用性_最小二乘_43

ivregress 2sls适用性_ivregress 2sls适用性_44

软阈值:设置小权重为0同时缩小其他所有权重。

ivregress 2sls适用性_ivregress 2sls适用性_45

硬阈值:设置小权重为0但不缩放其他权重。

ivregress 2sls适用性_数据结构与算法_46

 

*总结:

如果输入正交:即X'X=I,则RSS为:

ivregress 2sls适用性_数据结构与算法_47

最小二乘回归的解为:

ivregress 2sls适用性_ivregress 2sls适用性_48

岭回归的解为:

ivregress 2sls适用性_人工智能_49

Lasso的解为:

ivregress 2sls适用性_ivregress 2sls适用性_50