文章目录

  • 一、一些简单的概率统计
  • 1.概念
  • 2.全概率公式&贝叶斯公式
  • 3.随机变量
  • 4.高斯分布
  • 5.极大似然估计
  • 二、线性回归模型
  • 三、线性回归求解算法
  • 1.梯度下降法
  • 2.标准方程组
  • 3.两种方法的对比
  • 四、回归模型的深入探讨
  • 1.极大似然估计
  • 2.最大后验估计(MAP)



一、一些简单的概率统计

1.概念

  • 概率:对随机事件发生可能性大小的度量
  • 条件概率:事件B已发生的条件下,事件A发生的概率,记作excel二次回归方程_算法
  • 联合概率:A和B共同发生的概率,称事件A和B的联合概率,记为excel二次回归方程_人工智能_02
  • 独立事件:事件A(或B)是否发生对事件B(或A)的发生概率没有影响,则称A和B为相互独立事件
  • 条件独立:在给定C的条件下,若事件A和B满足excel二次回归方程_算法_03excel二次回归方程_人工智能_04,则称在给定C的情况下A和B独立

2.全概率公式&贝叶斯公式

  • 乘法原理
    excel二次回归方程_excel二次回归方程_05
  • 全概率公式
    A为任一事件,excel二次回归方程_人工智能_06是样本空间excel二次回归方程_机器学习_07的一个划分,且excel二次回归方程_机器学习_08两两互斥,excel二次回归方程_excel二次回归方程_09,那么有:
    excel二次回归方程_机器学习_10
  • 贝叶斯公式
    excel二次回归方程_算法_11

3.随机变量

  • 概率密度函数
    是描述随机变量输出值在某确定取值点附近可能性的函数,图中红色excel二次回归方程_机器学习_12为概率密度函数,蓝色excel二次回归方程_机器学习_13为分布函数,excel二次回归方程_机器学习_13excel二次回归方程_机器学习_12积分得到。
  • 期望
    描述一个随机变量所取值的概率平均
    离散型:excel二次回归方程_excel二次回归方程_16
    连续型:excel二次回归方程_人工智能_17
  • 方差
    随机变量的方差描述的该随机变量的值偏离其期望值的程度
    离散型:
    excel二次回归方程_人工智能_18
    连续型:
    excel二次回归方程_excel二次回归方程_19

4.高斯分布

  • 一维高斯分布
    excel二次回归方程_算法_20
  • 多维高斯分布
    excel二次回归方程_贝叶斯公式_21

5.极大似然估计

  • 似然函数
    excel二次回归方程_excel二次回归方程_22
    若似然函数可微,则可对微分方程进行求解,作为极值的必要条件:
    excel二次回归方程_人工智能_23

二、线性回归模型

假设函数excel二次回归方程_excel二次回归方程_24为输入excel二次回归方程_贝叶斯公式_25的线性函数:
excel二次回归方程_算法_26

将线性回归拓展到非线性:引入基函数

excel二次回归方程_算法_27


三、线性回归求解算法

  • 问题的本质:确定模型中的参数excel二次回归方程_机器学习_28
  • 基本思想:基于训练集最小化预测值excel二次回归方程_贝叶斯公式_29与真是输出值excel二次回归方程_算法_30的差异
  • 目标函数(或代价函数):
    excel二次回归方程_机器学习_31 进一步得到参数:
    excel二次回归方程_贝叶斯公式_32
  • 求解算法:
  1. 梯度下降法:BGD,SGD,MBGD
  2. 标准方程组

1.梯度下降法

为了使损失函数excel二次回归方程_人工智能_33最小,首先对excel二次回归方程_excel二次回归方程_34赋初值,这个值可以是随机的,也可以是一个全零的向量;之后不断更新excel二次回归方程_excel二次回归方程_34的值,使得excel二次回归方程_人工智能_33按梯度下降的方向进行减少,直到收敛。

excel二次回归方程_机器学习_37

  1. 批处理梯度下降(BGD - Batch Gradient Descent)
    每次利用所有的数据更新参数excel二次回归方程_贝叶斯公式_38(同时更新excel二次回归方程_贝叶斯公式_38的各个维度,excel二次回归方程_excel二次回归方程_40为学习率):
    excel二次回归方程_人工智能_41
  2. 随机梯度下降(SGD - Stochastic Gradient Descent)
    SGD又称为在线学习,基本思想为如果条件对所有样本成立,则对任一样本也成立。每次只用一个样本excel二次回归方程_贝叶斯公式_42对参数excel二次回归方程_excel二次回归方程_43进行更新:
    excel二次回归方程_机器学习_44
  3. 小批量处理梯度下降(MBGD - Mini-Batch Gradient Descent)
    介于上述两种方法之间,每次更新用一部分样本对参数excel二次回归方程_excel二次回归方程_43进行更新。

2.标准方程组

将目标函数改写成矩阵形式:
excel二次回归方程_人工智能_46
其中
excel二次回归方程_机器学习_47
excel二次回归方程_机器学习_48求偏导:
excel二次回归方程_人工智能_49
令偏导数等于0,可得:
excel二次回归方程_机器学习_50

3.两种方法的对比

excel二次回归方程_算法_51


四、回归模型的深入探讨

我们可以将每一个数据样本点看作是在回归曲线的基础之上加入了一个高斯噪声。即对于点excel二次回归方程_excel二次回归方程_52,其对应的曲线拟合回归值为excel二次回归方程_人工智能_53,对应的真实样本观测值为excel二次回归方程_人工智能_54,则可以将excel二次回归方程_人工智能_54看作是由高斯分布excel二次回归方程_人工智能_56生成得到的,其中excel二次回归方程_算法_57

excel二次回归方程_excel二次回归方程_58


于是模型为:

excel二次回归方程_贝叶斯公式_59

1.极大似然估计

基本思想:把待估计的参数看做是确定的量,只是其取值未知。最佳估计就是使得产生以观测到的样本的概率最大的那个值。
根据定义的模型可以得到似然函数和对数似然函数:
excel二次回归方程_算法_60 观察上式可以发现,最大化对数似然函数excel二次回归方程_算法_61等价于最小化excel二次回归方程_人工智能_62,这与之前定义的MSE目标函数excel二次回归方程_贝叶斯公式_63是相同的。

2.最大后验估计(MAP)

基本思想:把待估计的参数看做是符合某种先验概率分布的随机变量。 对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,从而利用样本信息修正了对参数的初始估计值。
根据贝叶斯公式得到:
excel二次回归方程_机器学习_64 其中excel二次回归方程_机器学习_65为参数excel二次回归方程_人工智能_66的先验分布,定义为均值为0的高斯分布:
excel二次回归方程_算法_67 则似然函数及对数似然函数为:
excel二次回归方程_excel二次回归方程_68 观察到最大化上述对数似然函数等价于最小化下式:
excel二次回归方程_贝叶斯公式_69 可以发现,这相当于在目标函数excel二次回归方程_算法_70中加入了二次正则化项。