概率论

  • 古典概率 or 统计定义:频率
  • 现代概率 or 公理化定义:测度论(科尔莫戈罗夫)

概率空间(Ω,φ,P)

Ω 样本空间(最小不可分的独立互斥事件集合);

φ事件(Ω的子集);

P测度(事件的概率);

随机变量:随机试验各种结果的实值单值函数

贝叶斯公式


贝叶斯法则是关于随机事件A和B的条件概率边缘概率的。



其中P(A|B)是在B发生的情况下A发生的可能性。

 

  为完备事件组,即

 


贝叶斯法则中,每个名词都有约定俗成的名称:


Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。


Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率


Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。


Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。


按这些术语,Bayes法则可表述为:


后验概率 = (似然度 * 先验概率)/标准化常量 也就是说,后验概率与先验概率和似然度的乘积成正比。


另外,比例Pr(B|A)/Pr(B)也有时被称作标准似然度(standardised likelihood),Bayes法则可表述为:


后验概率 = 标准似然度 * 先验概率


特征函数:

机器学习算法--概率与凸优化_先验概率

机器学习算法--概率与凸优化_条件概率_02

机器学习算法--概率与凸优化_后验概率_03

大数定理:

机器学习算法--概率与凸优化_后验概率_04

机器学习算法--概率与凸优化_先验概率_05

中心极限定理:

机器学习算法--概率与凸优化_后验概率_06

实际应用:

机器学习算法--概率与凸优化_先验概率_07

            点估计:

机器学习算法--概率与凸优化_先验概率_08

点估计的评判:相合性、无偏性、有效性、渐进正态性

极大似然估计:

机器学习算法--概率与凸优化_先验概率_09

机器学习算法--概率与凸优化_先验概率_10


凸优化

机器学习算法--概率与凸优化_后验概率_11

凸集与凸函数、常见凸函数:

Hessian矩阵半正定!

机器学习算法--概率与凸优化_后验概率_12

上镜图:函数图像上方的区域;

机器学习算法--概率与凸优化_条件概率_13

机器学习算法--概率与凸优化_后验概率_14


凸集合的保凸运算:

任意多个凸集合的交集仍然是凸集合;

凸集合的线性映射仍然是凸集合;

凸函数的保凸运算:

机器学习算法--概率与凸优化_先验概率_15