第三章概率与信息论
概率论是用于表示不确定性声明的数学框架。
在AI领域,概率论主要有两种用途:
1.告诉我们AI系统如何推理
2.我们可以利用它从理论上分析我们提出的AI系统的行为
花书这本书不是数学方面的书籍,所以这一方面并不会占用很多的章节,也不会过于详细,过于深入的探讨,所以如果有兴趣,还是建议读一些额外的书籍。

3.1为什么要使用概率?
因为机器学习通常必须处理不确定量,有时也可能处理随机(非确定性的)量。
不确定性和随机性来自多个方面。
不确定性的三种可能来源:
1.被建模的系统内在的随机性。
大多数量子力学的解释,都将亚原子粒子的动力学描述为概率的。
2.不完全观测。
即使是确定的系统,当我们不能观测到所有的驱动系统行为的变量时,该系统也会呈现随机性。
3.不完全建模。
当我们使用一些必须舍弃某些观测信息的模型时,舍弃的信息会导致模型的预测出现不确定性。

概率论最初的发展是为了分析事件发生的概率。
如果一个医生诊断了病人,并说病人患流感的几率为40%,这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。
在这个例子中,我们用概率来表示一种信任度(degree of belief),其中1表示非常肯定病人患有流感,而0非常肯定病人没有流感。
前面的那种概率,直接与事件发生的频率相联系,被称为频率派概率(frequentist probability)。
后面那种设计确定性水平,被称为贝叶斯概率(Bayesian probability)。

概率也可以看作是用于处理不确定性的逻辑扩展。逻辑提供了一套形式化的规则,可以在给定某些命题是真或假的假设下,判断另外一些命题是真的还是假的。概率提供了一套形式化的规则,可以在给定一些命题的似然后,计算其他命题为真的似然。

3.2随机变量

随机变量(random variable)是可以随机地取不同值的变量。
随机变量可以是离散的活着联系的。离散随机变量拥有优先或者可数无限多的状态。
连续随机变量伴随着实数值。

3.3概率分布
概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。
描述概率分布的方式取决于随机变量是离散的还是连续的。

3.3.1离散型变量和概率质量函数

离散型变量的概率分布可以用概率分布律函数(probability mass function,PMF)来描述。

P(x)

概率分布律函数可以同时作用于多个随机变量,这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。P(x=x,y=y)表示x=x,y=y同时发生的概率。

一个函数P如果想要成为随机变量x的PMF,必须满足这几个条件:

1.P的定义域必须为x所有可能的状态

2.x∈x,0<=P(x)<=1.不可能发生的事件概率为0,并没有比这概率更低的状态了。一定发生的时间概率为1,没有逼着最高的状态。

3.Σx∈xP(x)=1,这条性质称为归一性(normalized)。

3.3.2连续型变量和概率密度函数

当我们研究的对象是连续性随机变量时,我们用概率密度函数(probability density function,PDF)而不是概率分布律函数来描述其概率分布。一个函数p如果想要成为PDF,必须满足下面这几个条件:

1.p的定义域必须是x所有可能的状态

2.x∈x,p(x)>=0

3.

花书深度学习 pdf deep learning花书_ai


PDF没有直接对特定的状态给出概率,相对的,他给出了落在面积为

花书深度学习 pdf deep learning花书_花书深度学习 pdf_02

的无限小的区域内的概率

花书深度学习 pdf deep learning花书_花书深度学习 pdf_03


求x落在一个区间内的概率时,我们可以对其求积分:

花书深度学习 pdf deep learning花书_机器学习_04

3.4边缘概率

有时候我们知道了一组变量的联合概率分布,想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。

假设有离散型随机变量x和y,我们知道其P(x,y)。我们可以根据下面的求和法则(sum rule)来计算P(x):

花书深度学习 pdf deep learning花书_概率分布_05


对于连续性变量,我们需要用积分代替求和:

花书深度学习 pdf deep learning花书_数学_06

3.5条件概率

在很多情况狭隘,我们感兴趣的是某个事件,在给定其他时间发生时,出现的概率。这种概率叫做条件概率,我们将给定x=x时y=y发生的条件概率为P(Y=y|X=x)。这个条件概率我们可以通过下面这个公式计算:

花书深度学习 pdf deep learning花书_ai_07


条件概率只在P(X=x)>0时有定义。

计算一个行动的后果被称为干预查询(intervention query)。干预查询属于因果模型(causal modeling)的范畴。3.6条件概率的链式法则

任何多维随机变量的联合概率分布,都可以分解为只有一个变量的条件概率相乘的形式:

花书深度学习 pdf deep learning花书_数学_08


这个规则被称为概率的链式法则(chain rule)或者乘法法则(product rule)。如下例子:

花书深度学习 pdf deep learning花书_数学_09

3.7独立性和条件独立性

两个随机变量x和y,如果他们的概率分布可以表示为两个因子的乘积形式,并且一个因子只含有x另一个只含有y,我们就成这两个随机变量时相互独立的(independent)。

花书深度学习 pdf deep learning花书_ai_10


两个随机变量x和y在给定随机变量z时条件独立的(conditionally independent),如果关于x和y的条件概率分布对于z的每一个值都可以写成乘积的形式:

花书深度学习 pdf deep learning花书_概率分布_11


我们可以采用一种简化形式来表示独立性和条件独立性:

花书深度学习 pdf deep learning花书_数学_12

:表示x和y相互独立

花书深度学习 pdf deep learning花书_机器学习_13

:表示x和y在给定z时条件独立