一、线性回归
回归问题:目标值——连续型的数据
线性回归应用场景:房价预测、销售额度预测、金融:贷款额度预测、利用线性回归以及系数分析因子
定义与公式:
线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况叫多元回归
通用公式h(w)=w1*x1+w2*x2+w3*x3+…+b=wT x+b
广义线性模型——非线性关系
线性关系一定是线性模型,线性模型不一定是线性关系
二、线性回归的损失和优化原理
损失函数(目标函数):
定义:
Y_i为第i个训练样本的真实值
H(x_i)为第i个训练样本特征值组合预测函数
又称最小二乘法
优化损失:
- 正规方程:
理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果
缺点:当特征过多过复杂时,求解速度太慢并且得不到结果
- 梯度下降:
理解:a为学习率,需要手动指定(超参数),a旁边的整体表示方向沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新w值使用:面对训练数据规模十分庞大的任务,能够找到较好的结果
线性回归API:
Sklearn.linear_model.LinearRegression(fit_intercept=True)
- 通过正规方程优化
- Fit_intercept:是否计算偏置
- LinearRegression.coef_:回归系数
- LinearRegression.intercept_:偏置
Sklearn.linear_model.SGDRegressor(loss=”squared_loss”,fit_intercept=True,learning_rate=’invscaling’,eta0=0.01)
- SGDRegressor类实现了随机梯度下降算法学习,它支持不同的loss函数和正则化惩罚项来拟合线性回归模型
- Loss:损失类型
- loss=”squared_loss”:普通最小二乘法
- Fit_intercept:是否计算偏置
- Learning_rate:string,optional
学习率填充
‘constant’:eta=eta0
‘optimal’:eta=1.0/(alpha*(t+0))[default]
‘invscaling’:eta=eta0/pow(t,power_t) power_t=0.25:存在父类当中
‘对于一个常数值的学习率来说,可以使用learning_rate=’constant’,并使用eta0来指定学习率’
- SGDRegressor.coef_:回归系数
- SGDRegressor.intercept_:偏置
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor
from sklearn.metrics import mean_squared_error
def linerar1():
"""
正规方程的优化方法对波士顿房价进行预测
:return:
"""
#1)获取数据
boston=load_boston()
#2)划分数据集
x_train,x_test,y_train,y_test=train_test_split(boston.data,boston.target,random_state=22)
#3)标准化
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
#4)预估器
estimator=LinearRegression()
estimator.fit(x_train,y_train)
#5)得出模型
print("正规方程权重系数为:\n",estimator.coef_)
print("正规方程偏置为:\n",estimator.intercept_)
#6)模型评估
y_predict=estimator.predict(x_test)
print("预测房价:\n",y_predict)
error=mean_squared_error(y_test,y_predict)
print("正规方程——均方误差为:\n",error)
return None
def linerar2():
"""
梯度下降的优化方法对波士顿房价进行预测
:return:
"""
# 1)获取数据
boston = load_boston()
# 2)划分数据集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)
# 3)标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
# 4)预估器
estimator = SGDRegressor()
estimator.fit(x_train, y_train)
# 5)得出模型
print("梯度下降权重系数为:\n", estimator.coef_)
print("梯度下降偏置为:\n", estimator.intercept_)
# 6)模型评估
y_predict = estimator.predict(x_test)
print("预测房价:\n", y_predict)
error = mean_squared_error(y_test, y_predict)
print("梯度下降——均方误差为:\n", error)
return None
回归性能评估
均方误差(Mean Squared Error(MSE))评价机制:
注意:y^i为预测值,y 为真实值
API:sklearn.metrics.mean_squared_error(y_true,y_pred)
- 均方差误差回归损失
- Y_true:真实值
- Y_pred:预测值
- Return:浮点数结果
总结对比:
梯度下降 | 正规方程 |
需要选择学习率 | 不需要 |
需要迭代求解 | 一次运算得出 |
特征数量较大可以使用 | 需要计算方程,时间复杂度高 |
扩展——关于梯度下降优化方法GD、SGD、SAG
- GD:梯度下降(Gradient Descent),原始的梯度下降法需要计算所有样本的值才能够得出梯度,计算量大,
- SGD:随机梯度下降(Stochasticgradient descent)是一个优化方法,它在一次迭代是只考虑一个训练样本
SGD的优点是:高效、容易实现
SGD的缺点是:SGD需要许多超参数:比如正则项参数、迭代数
SGD对于特征标准化是敏感的
- SAG随机平均梯度法(Stochasitc Average Gradient),由于收敛的速度太慢,有人提出SAG等基于梯度下降的算法
Scikit-learn:岭回归、逻辑回归
三、欠拟合和过拟合
在训练集上表现的好,测试集不好
定义:
过拟合:一个假设在训练集上能够获得比其他假设更好的拟合,但是在测试集上却不能很好的拟合数据,此时认为这个假设出现了过拟合的现象。(模型复杂)
欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试集上也不能很好的拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)
原因及解决办法:
欠拟合原因以及解决办法:
原因:学习到数据的特征过少
解决办法:增加数据的特征训练
过拟合原因以及解决办法:
原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点
解决办法:正则化
L1正则化:
作用:可以使得其中一些w的值直接为0,删除这个特征的影响
LASSO回归
损失函数+(惩罚系数)惩罚项
L2正则化:
作用:可以使其中一些W的值都很小,都接近于0,削弱某个特征的影响
优点:越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象
Ridge回归——岭回归
加入L2正则化后的损失函数:
注:m为样本,n为特征数。损失函数+(惩罚系数)惩罚项
四、线性线性回归的改进岭回归:
岭回归:其实就是一种线性回归,只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果
API:sklearn.linear_model.Ridge(alpha=1.0,fit_intercept=True,solver=”auto”,normalize=False)
具有L2正则化的线性回归
Alpha:正则化力度,也叫 , 取值0~1,1~10
Solver:会根据数据自动选择优化方法,sag:如果数据集、特征集都比较大,选择该随机梯度下降优化数据
Normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据
Ridge.coef_:回归权重
Ridge.intercept_:回归偏置
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge
from sklearn.metrics import mean_squared_error
def linerar3():
"""
岭回归对波士顿房价进行预测
:return:
"""
# 1)获取数据
boston = load_boston()
# 2)划分数据集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)
# 3)标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
# 4)预估器
estimator = Ridge()
estimator.fit(x_train, y_train)
# 5)得出模型
print("岭回归权重系数为:\n", estimator.coef_)
print("岭回归偏置为:\n", estimator.intercept_)
# 6)模型评估
y_predict = estimator.predict(x_test)
print("预测房价:\n", y_predict)
error = mean_squared_error(y_test, y_predict)
print("岭回归——均方误差为:\n", error)
return None
正则化力度越大,权重系数越小
正则化力度越小,权重系数越大