机器学习的简单示例-线性回归

  • 线性回归(Linear Regression)概述
  • 简介
  • 线性回归之参数学习
  • 1.经验风险最小化
  • 1)求解步骤
  • 2)求解条件
  • 3)𝑿𝑿T 不可逆时解决方法
  • 2.结构风险最小化
  • 1)为什么提出?
  • 2) 如何解决?
  • 3.最大似然估计
  • 4.最大后验估计
  • 1)为什么需要最大后验估计?
  • 2)步骤


线性回归(Linear Regression)概述

简介

是一种对自变量和因变量之间关系进行建模的回归分析.自变量数量为1 时称为简单回归,自变量数量大于1 时称为多元回归

机器学习中,,自变量就是样本的特征向量𝒙 ∈ ℝ𝐷(每一维对应一个自变量,列向量),因变量是标签𝑦,这里𝑦 ∈ ℝ 是连续值(实数或连续整数).假设空间是一组参数化的线性函数:

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小化


下面用增广向量来简要表示上述线性模型:

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小二乘法_02

线性回归之参数学习

任务:给定一组包含𝑁 个训练样本的训练集𝒟 = {(𝒙(𝑛), 𝑦(𝑛))} n=[1,N],**学习一个最优的线性回归的模型参数𝒘.**下面从四个角度进行分析:

1.经验风险最小化

1)求解步骤

平方损失函数衡量真实标签和预测标签之间的差异。训练集上的经验风险定义为:

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小化_03


头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小二乘法_04

2)求解条件

𝑿𝑿T ∈ ℝ(𝐷+1)×(𝐷+1) 必须存在逆矩阵
–> 𝑿𝑿T 是满秩的(rank(𝑿𝑿T) = 𝐷 + 1
–> 行列式不为0
–>𝑿 中的行向量之间是线性不相关的,每个特征不相关。
一种常见的𝑿𝑿T 不可逆情况是样本数量𝑁 小于特征数量(𝐷 + 1),𝑿𝑿T的秩为𝑁.这时会存在很多解𝒘∗,可以使得ℛ(𝒘∗) = 0.

3)𝑿𝑿T 不可逆时解决方法

a.主成分分析:先使用主成分分析等方法来预处理数据,消除不同特征之间的相关性,然后再使用最小二乘法来估计参数。

b.最小均方算法:使用梯度下降法来估计参数.先初始化𝒘 = 0,然后通过下面公式进行迭代:

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小二乘法_05


其中𝛼 是学习率。

2.结构风险最小化

1)为什么提出?

最小二乘法的基本要求是各个特征之间要互相独立,保证𝑿𝑿T 可逆,但在此条件满足的情况下,如果特征之间有较大的多重共线性(Multicollinearity),就会导致𝑿𝑿T 的逆无法准确计算,𝑿𝑿T 的逆对数据集𝑿扰动极其敏感。

2) 如何解决?

岭回归(Ridge Regression):给𝑿𝑿T 的对角线元素都加上一个常数𝜆 使得(𝑿𝑿T + 𝜆𝐼) 满秩。,即其行列式不为0.最优的参数𝒘∗ 为:

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小化_06


岭回归的解𝒘∗ 可以看作结构风险最小化准则下的最小二乘法估计,其目标函数可以写为:

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小二乘法_07

3.最大似然估计

从建模条件概率𝑝(𝑦|𝒙) 的角度来进行参数估计。

假设标签𝑦 为一个随机变量,并由函数𝑓(𝒙; 𝒘) = 𝒘T𝒙 加上一个随机噪声𝜖决定,即
𝑦 = 𝑓(𝒙; 𝒘) +𝜖,
= 𝒘T𝒙 + 𝜖,

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小化_08


头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小二乘法_09

4.最大后验估计

1)为什么需要最大后验估计?

当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合,我们可以给参数加上一些先验知识.

2)步骤

头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_线性回归_10


头歌实践教学平台线性回归第1关正规矩阵方法 线性回归基础知识_最小化_11