3.1简单线性回归
有监督学习:数据集带标记,标记为连续值
在一个回归模型中,我们需要关注或预测的变量叫做因变量,我们选取的用来解释因变量变化的变量叫做自变量。
用一个或多个自变量来预测因变量的数学方法学得一个通过属性的线性组合来进行预测的函数
f(x) = wo+w11+…+Wnn
用向量的形式表示
f(x)= w’ x + Wo
优点简单、基本、可理解性好
自变量只有一个(一维)
y = wo+ w1x,为一元线性回归模型,x为真实值,y为预测值
y = wo+ wix+E,y为真实值,z为随机误差项y为y的估计值
优秀的线性回归模型,应尽量使得估计值y对应的实际观测值y之间的绝对差最小,即z最小。
最小二乘法
正则化可以减小线性回归的过度拟合和多重共线性等问题.
岭回归
LASSO回归
3.5模型评估与选择
实际问题中需要比较不同方法构建模型的优劣,以及同一方法设置不同参数时模型的优劣
调参与最终模型
模型的参数:一般由机器学习自动确定如线性回归中的变量系数等
算法的参数:一般由人工设定,亦称“超参数”岭回归,惩罚系数入
from sklearn. model_selection import GridSearchCV,网格搜索
最终模型:
实用:算法及算法参数选定后,用训练集D训练模型什么是好的模型?
对模型进行评估,评估泛化误差,利用测试误差近似评估泛化误差
对模型进行评估,选择泛化误差小的模型:准确率高且稳定的模型。
3.5.1评估方法
留出法:直接将数据集D划分为两个互斥的集合,训练集S,测试集T:D=SuT,snT= 0K折交叉验证法:k常取值为10
自助法
基于“自助采样”,又称有放回采样,可重复采样