贝叶斯学习笔记
- 贝叶斯公式预测的核心思想就5个字——“看起来更像”。
- 贝叶斯推理的一个特征是:当数据较弱时,那么先前对事物的认知是最重要的。
- 量化风险是一件非常复杂的事情
- 贝叶斯网络
- 贝叶斯网络有助于我们展现贝叶斯思维,当数据量适中、不完整和/或不确定时,贝叶斯网络可以用于数据科学中。
- 这意味着我们可以将因果假设加入到现有的非因果关系网络中,从而建立一个基于因果关系的贝叶斯网络。
- 当我们试图模拟一个领域中的干预项,例如估计一个治疗的效果时,这一点尤其重要。在这种情况下,必须使用因果模型,而贝叶斯网络帮助我们实现了这种过渡。来源:Bayesia book
- 《贝叶斯思想概述:从贝叶斯定理到贝叶斯网络》
- 贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。
- 贝叶斯原理,贝叶斯分类和朴素贝叶斯并不是一回事:
- 贝叶斯原理
- 贝叶斯原理是最大的概念,它解决了概率论中“逆向概率”的问题,
- 贝叶斯分类
- 在这个理论基础上,人们设计出了贝叶斯分类器,朴素贝叶斯分类是贝叶斯分类器中的一种,也是最简单,最常用的分类器。
- 朴素贝叶斯
- 朴素贝叶斯之所以朴素是因为它假设属性是相互独立的,因此对实际情况有所约束,如果属性之间存在关联,分类准确率会降低。不过好在对于大部分情况下,朴素贝叶斯的分类效果都不错。
- 朴素贝叶斯
- 它是一种简单但极为强大的预测建模算法。
- 标题拆解
- “朴素”是一种带有假设的限定条件,
- 它假设每个输入变量是独立的。
- 这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。
- “贝叶斯”则指的是贝叶斯公式
- 相关性不是因果性,二者虽然同时增长,但并不存在因果关系。
- 贝叶斯优化
- 贝叶斯优化是一种黑盒优化算法,用于求解表达式未知的函数的极值问题。
- 算法的思路是
- 首先生成一个初始候选解集合,
- 然后根据这些点寻找下一个有可能是极值的点,
- 这里的关键问题是如何根据已经搜索的点确定下一个搜索点。
- 贝叶斯优化根据已经搜索的点的函数值估计真实目标函数值的均值和方差(即波动范围),如图3所示。
- 上图中红色的曲线为估计出的目标函数值即在每一点出处的目标函数值的均值。
- 现在有3个已经搜索的点,用黑色实心点表示。
- 两条虚线所夹区域为在每一点处函数值的变动范围,
- 在以均值即红色曲线为中心,与标准差成正比的区间内波动。
- 在搜索点处,红色曲线经过搜索点,且方差最小,在远离搜索点处方差更大,这也符合我们的直观认识,远离采样点处的函数值估计的更不可靠。
- 将该点加入集合中,重复这一步骤,直至迭代终止。
- 最后从这些点中找出极值点作为问题的解。
- 常用的超参数优化方法有
- 网格搜索(Grid search),
- 它搜索一组离散的取值情况,得到最优参数值。
- 对于超参数较多的情况,该方法面临性能上的问题。
- 随机搜索(Random search),
- 通常的做法是用均匀分布的随机数进行搜索,也可以使用更复杂的启发式搜索策略。
- 贝叶斯优化(Bayesian Optimization)
- 遗传算法,
- 费曼眼中的科研:
- First you guess.
- Don't laugh, this is the most important step.
- 1. “First you guess”对应先验(a prior), 即基于以往的经验,你对参数的估计,或者说你认为 的取值所应满足的分布——;
- Then you compute the consequences.
- Compare the consequences to experience.
- 2. “Compute the consequences, and compare with experience”对应似然函数 (likelihood) ,即看模型输出与实验数据到底有多相似;
- 结论
- If it disagrees with experience, the guess is wrong.
- In that simple statement is the key to science.
- It doesn't matter how beautiful your guess is or how smart you are or what your name is.
- If it disagrees with experience, it's wrong.
- That's all there is to it.
- 3. 费曼没有提如果有很多模型都可以描述同样的实验数据,那么真实理论是其中一种的几率就会降低。这一项对应归一化系数,即分母上对不同参数的似然加权求和。有时又称“证据” Evidence;
- 4. 费曼也没有提人们对模型参数的信仰会随着数据的增多而发生改变和更新。这就是后验(Posterior)。
- 《贝叶斯分析助你成为优秀的调参侠:自动化搜索物理模型的参数空间》
- 只要知道了模型参数的先验分布和似然函数,就可以定义非归一化的后验分布函数。
- 马尔可夫链蒙特卡洛算法 MCMC
- 使用马尔可夫链蒙特卡洛算法 MCMC,可以对这个后验分布抽样,得到能够拟合实验数据的模型参数 的分布。
- 知道了参数的分布,就能计算拟合实验数据最好的那个参数组合(最大后验估计),以及模型的不确定度。
贝叶斯网络
这里的关键问题是如何根据已经搜索的点确定下一个搜索点。
当我们试图模拟一个领域中的干预项,例如估计一个治疗的效果时,这一点尤其重要。在这种情况下,必须使用因果模型,而贝叶斯网络帮助我们实现了这种过渡。来源:Bayesia book
贝叶斯原理,贝叶斯分类和朴素贝叶斯并不是一回事:
参考文献:
- 贝叶斯机器学习路线图
- 5个字极简入门朴素贝叶斯模型
- 张学友是“逃犯克星”?贝叶斯公式告诉你真相
- 可怕的贝叶斯定理,看完后忍不住感慨数学太重要了
- 贝叶斯思想概述:从贝叶斯定理到贝叶斯网络
未能掌握的参考文献:
- 贝叶斯分析助你成为优秀的调参侠:自动化搜索物理模型的参数空间
- 贝叶斯神经网络最新综述
- 贝叶斯神经网络对梯度攻击的鲁棒性