回归:数据(xi,yi)(i=1,n) xi是数据,yi是标记label,yi是连续的数据进行建模是回归问题,若yi是离散的叫分类问题classification;
回归–>>regression来自高尔顿;
线性回归,Logistic回归(二分类),Softmax回归(多分类);
梯度下降,最大似然估计(MLE),最小二乘法;
线性回归模型:
hθ(x)=∑ni=0θi∗xi=θTx
x是数据,θ是未知的参数;
y(i)=θTx(i)+ε(i)
ε(i)是独立同分布的,服从均值为0,方差为σ2的正态分布;
最大似然估计+线性回归+样本服从正态分布—–》最小二乘法
其实是Legendre 提出了最小二乘法,高斯在此基础上提出正态分布;
假设:内涵性,简化性,发散性;
将M个N个特征的样本组成矩阵X:
X每一行对应一个样本,共M行,每一列对应一个特征,共N维,目标函数:
J(θ)=12(Xθ−y)T(Xθ−y)=12(θTXTXθ−θTXTy−yTXθ+yθy)
目标函数取最大值,令其导数为0
J′(θ)=2XTXθ−2XTy=0====>
XTXθ=XTy 若XTX可逆====>
θ=(XTX)−1XTy
XTX半正定,因为对于任意的非零向量u有:
uTXTXu=(Xu)TXu>=0
所以对于任意的正实数λ>0,XTX+λI正定,正定矩阵一定可逆,所以可以给θ=(XTX)−1XTy中的XTX加上λI====>
θ=(XTX+λI)−1XTy
线性回归的目标函数:
J(θ)=12∑mi=1(hθ(x(i))−y(i))2
为了防止过拟合,在目标函数里加入正则项;
将目标函数增加平方和损失:
J(θ)=12∑mi=1(hθ(x(i))−y(i))2+λ∑nj=1θ2j
上式中后面一项是正则项,叫L2-NORM(L2正则项)—->Ridge回归;
J(θ)=12∑mi=1(hθ(x(i))−y(i))2+λ∑nj=1|θj|
上式中是L1-NORM—-》LASSO回归(Least Absolute Shrinkage and Selection Operator),用LARS算法解决LASSO计算;
可以用LASSO去降维;
还有L0-NORM,正则项为不为0参数的个数;
L1-NORM是L0-NORM的近似;
综合Ridge回归和LASSO回归得到Elastic Net:
J(θ)=12∑mi=1(hθ(x(i))−y(i))2+λ(ρ∑nj=1|θj|+(1−ρ)∑nj=1θ2j)
正则化和稀疏
稀疏解:求解参数,希望某些参数为0(某些参数是无关的);
LASSO可以保证稀疏;
上述中的λ是超参数,其实调参调的是λ,实际的参数θ可以通过样本数据及λ直接计算出的;
总平方和:TSS(Total Sum of Squares):TSS=m*Var(Y)=∑(yi−y¯)2;
残差平方和:RSS(Residual Sum of Squares),也是误差平方和SSE(Sum of Squares for Error)=∑(yi−yˆ)2;
R2=1−RSSTSS
R2越大拟合效果越好,最优值为1,所模型预测为随机值,其可能为负值,若预测值恒为样本期望,则其值为0;
ESS(Explained Sum of Squares)=∑(y¯i−yˆ)2,TSS>=ESS+RSS,ESS也称为回归平方和(Sum of Square for Regression);
局部加权回归:LWR(Local Weight Linear Regression)
∑w(i)(y(i)−θTx(i))2
权值:w(i)=exp(−(x(i)−x)22τ2)
其中τ称为带宽,它控制着训练样本随着与x(i)距离的衰减速率;
不建议用回归问题解决分类问题,还是建议用logistic和softmax做分类;