线性回归

介绍

线性回归又称为最小二乘法回归Ordinary Least-Squares (OLS) Regression。简单来说就是一条线性函数来很好的拟合已知数据并预测未知数据。
在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

一元线性回归

明确常用数学符号

  • 特征(feature): 用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_线性回归,也称为观测变量, 比如,房屋的面积,卧室数量都算房的
  • 特征 特征向量(输入): 用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_线性回归_02,一套房屋的信息就算一个特征向量,特征向量由特征组成, 用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_机器学习_03
  • 输出向量:用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_梯度下降_04 ,又称为预测变量,用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_线性回归_05
  • 假设(hypothesis):也称为预测函数。比如一个线性预测函数是:用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_用r语言做一元线性回归模型ggplot_06(θ为回归系数,与预测准确度息息相关)
  • 学习率(α):其标识了沿梯度方向行进的速率。不能过大,也不可太小。在实际编程中,学习率可以以 3 倍,10 倍这样进行取值尝试,如:α=0.001,0.003,0.01…0.3,1

误差评估

需要某个手段来评估我们的学习效果,即评估各个真实值 用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_用r语言做一元线性回归模型ggplot_07 与预测值 hθ(x(i)) 之间的差异。最常见的,我们通过最小均方(Least Mean Square)来描述误差。

用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_机器学习_08

梯度下降

梯度下降算法在机器学习中是很普遍的算法,不仅可以用于线性回归问题,还可以应用到其他很多的机器学习的问题中。梯度下降算法是一种求局部最优解的方法。
在线性回归中,通常使用梯度下降(Gradient Descent)来调节 θ

  1. 批量梯度下降 (每次迭代用到所有样本)
  2. 随机梯度下降 (每次迭代只需要用一个样本)
  3. 小批量梯度下降(每次迭代用到部分b个样本)==应用

多元线性回归

定义

用r语言做一元线性回归模型ggplot 一元线性回归模型中r2_用r语言做一元线性回归模型ggplot_09


未完待续····