1、机器学习,通过算法使得机器能从大量的数据中学习规律,并利用规律对未知数据进行预测。
2、回归,是对一个或多个自变量和因变量之间的关系进行建模,求解的一种统计方法。(注:预测的是连续值)
3、建立模型后,为了求解模型的参数也为了让预测更加准确,需要一个函数来描述预测值和真实值之间的误差,该函数就叫做损失函数。
4、针对损失函数的优化,我们可以通过直接法和迭代法两种方式对该损失函数进行优化,进而得到使损失函数最小的模型参数。
5、直接法,即直接给出优化问题的最优解,如果使用直接法,损失函数需要满足两个条件:
- 损失函数为凸函数
- 损失函数有解析解,即通过严格公式所求得的解
6、可以使用直接法的情况,实际中很少,通常选择使用迭代法求解。迭代法是一种不断用变量的旧值递推新值的过程,即迭代的用旧值修正对最优解的估计。
7、我们得到模型参数(回归系数)的估计值后,需要对模型进行评估,在统计学上,我们通常用判定系数R^2说明回归曲线对数据拟合的好坏,判定系数越接近1,则说明各个数据点与回归直线越接近,回归模型的预测值越接近真实值;反之则拟合效果差。
8、不完全多重共线性,即自变量之间存在高度相关,但是不存在完全共线性。
9、梯度下降法,对于找到一组参数使损失函数最小化的问题,也叫做优化问题,在优化问题求解时,我们经常会使用泰勒展开来近似代替目标函数,梯度下降就是利用一阶泰勒展开,使参数一步步接近最优,从而最小化损失函数的方法。
10、一般来说,我们的模型在训练集上表现会优于测试集,但是如果我们过度追求在训练集上的准确性,而将模型构建的过于复杂,那么就会出现过拟合的情况。遇到过拟合,可以通过增大样本量的方法,减缓过拟合的状况;同时我们也可以采取降低模型复杂度的方式来避免过拟合发生。
11、当我们的模型过于简单时,可能会出现欠拟合的情况,这说明我们的训练不够充分,模型没有抓住训练集中数据的信息。遇到欠拟合时,我们应
适量增加模型复杂度。
12、回归分析常用的评价模型的指标,均方差MSE,均方根误差RMSE,平均绝对误差MAE
13、在回归分析中,我们假定误差项满足,均值为0,同方差,任意两个误差项不相关,那么模型的均方误差MSE可以分解为;
E(MSE)=不可约误差的方差+模型偏差的平方+模型方差
模型误差=可约误差+不可约误差
可约误差,选取模型的估计不是最优模型的最优估计时,如果提高模型精度,选取更适合的模型,这种误差就能被降低。
14、正则项的使用可以减缓过拟合的状况,也可以帮助我们选择模型的特征。