文章目录
- 一、一些简单的概率统计
- 1.概念
- 2.全概率公式&贝叶斯公式
- 3.随机变量
- 4.高斯分布
- 5.极大似然估计
- 二、线性回归模型
- 三、线性回归求解算法
- 1.梯度下降法
- 2.标准方程组
- 3.两种方法的对比
- 四、回归模型的深入探讨
- 1.极大似然估计
- 2.最大后验估计(MAP)
一、一些简单的概率统计
1.概念
- 概率:对随机事件发生可能性大小的度量
- 条件概率:事件B已发生的条件下,事件A发生的概率,记作
- 联合概率:A和B共同发生的概率,称事件A和B的联合概率,记为
- 独立事件:事件A(或B)是否发生对事件B(或A)的发生概率没有影响,则称A和B为相互独立事件
- 条件独立:在给定C的条件下,若事件A和B满足或,则称在给定C的情况下A和B独立
2.全概率公式&贝叶斯公式
- 乘法原理
- 全概率公式
A为任一事件,是样本空间的一个划分,且两两互斥,,那么有: - 贝叶斯公式
3.随机变量
- 概率密度函数
是描述随机变量输出值在某确定取值点附近可能性的函数,图中红色为概率密度函数,蓝色为分布函数,由积分得到。 - 期望
描述一个随机变量所取值的概率平均
离散型:
连续型: - 方差
随机变量的方差描述的该随机变量的值偏离其期望值的程度
离散型:
连续型:
4.高斯分布
- 一维高斯分布
- 多维高斯分布
5.极大似然估计
- 似然函数
若似然函数可微,则可对微分方程进行求解,作为极值的必要条件:
二、线性回归模型
假设函数为输入的线性函数:
将线性回归拓展到非线性:引入基函数
三、线性回归求解算法
- 问题的本质:确定模型中的参数
- 基本思想:基于训练集最小化预测值与真是输出值的差异
- 目标函数(或代价函数):
进一步得到参数: - 求解算法:
- 梯度下降法:BGD,SGD,MBGD
- 标准方程组
1.梯度下降法
为了使损失函数最小,首先对赋初值,这个值可以是随机的,也可以是一个全零的向量;之后不断更新的值,使得按梯度下降的方向进行减少,直到收敛。
- 批处理梯度下降(BGD - Batch Gradient Descent)
每次利用所有的数据更新参数(同时更新的各个维度,为学习率): - 随机梯度下降(SGD - Stochastic Gradient Descent)
SGD又称为在线学习,基本思想为如果条件对所有样本成立,则对任一样本也成立。每次只用一个样本对参数进行更新: - 小批量处理梯度下降(MBGD - Mini-Batch Gradient Descent)
介于上述两种方法之间,每次更新用一部分样本对参数进行更新。
2.标准方程组
将目标函数改写成矩阵形式:
其中
对求偏导:
令偏导数等于0,可得:
3.两种方法的对比
四、回归模型的深入探讨
我们可以将每一个数据样本点看作是在回归曲线的基础之上加入了一个高斯噪声。即对于点,其对应的曲线拟合回归值为,对应的真实样本观测值为,则可以将看作是由高斯分布生成得到的,其中
于是模型为:
1.极大似然估计
基本思想:把待估计的参数看做是确定的量,只是其取值未知。最佳估计就是使得产生以观测到的样本的概率最大的那个值。
根据定义的模型可以得到似然函数和对数似然函数:
观察上式可以发现,最大化对数似然函数等价于最小化,这与之前定义的MSE目标函数是相同的。
2.最大后验估计(MAP)
基本思想:把待估计的参数看做是符合某种先验概率分布的随机变量。 对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,从而利用样本信息修正了对参数的初始估计值。
根据贝叶斯公式得到:
其中为参数的先验分布,定义为均值为0的高斯分布:
则似然函数及对数似然函数为:
观察到最大化上述对数似然函数等价于最小化下式:
可以发现,这相当于在目标函数中加入了二次正则化项。