文章目录

  • 概率分布
  • 概率质量函数(分布律)
  • 连续型变量和概率密度函数
  • 函数成为概率密度的条件
  • 边缘概率
  • 条件概率
  • 条件概率的链式法则
  • 独立性和条件独立性
  • 期望、方差和协方差
  • 期望(expectation)
  • 简写
  • 方差(variance)
  • Multinoulli 分布
  • 高斯分布
  • 指数分布和 Laplace 分布
  • 艾佛森括号🎈(Iverson bracket)
  • 指示函数🎈
  • Dirac分布
  • 经验分布
  • 分布的混合
  • 潜变量(latent variable)
  • 高斯混合模型GMM
  • 常用函数的有用性质
  • Logistic sigmoid
  • softplus
  • 重要性质小结(sigmoid@softplus)
  • 补充推导
  • 正部函数@负部函数
  • 直接与事件发生的频率相联系,被称为 频率派概率(frequentist probability);
  • 当我们说一个结果发生的概率为 p,这意味着如果我们反复实验 (例如,抽取一手牌) 无限次,有 p 的比例可能会导致这样的结果。
  • 涉及到确定性水平,被称为 贝叶斯概率(Bayesian probability)。
  • 这种推理似乎并不立即适用于那些不可重复的命题。如果一个医生诊断了病人,并说该病人患流感的几率为 40%,
  • 这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。
  • 在医生诊断病人的例子中,我们用概率来表示一种 信任度(degree of belief),
  • 其中 1 表示非常肯定病人患有流感,而 0 表示非常肯定病人没有流感。
  • 关于不确定性的常识推理,如果我们已经列出了若干条我们期望它具有的性质,那么满足这些性质的唯一一种方法就是将贝叶斯概率和频率派概率视为等同的。
  • 例如,如果我们要在扑克牌游戏中根据玩家手上的牌计算她能够获胜的概率,我们使用和医生情境完全相同的公式,就是我们依据病人的某些症状计算她是否患病的概率。
  • 一小组常识性假设蕴含了必须是相同的公理控制两种概率
  • 概率可以被看作是用于处理不确定性的逻辑扩展
  • 逻辑提供了一套形式化的规则,可以在给定某些命题是真或假的假设下,判断(determine)另外一些命题(proposition)是真的还是假的。
  • 概率论(Probability)提供了一套形式化的规则,可以在给定一些命题的似然(likelihood)(可能性)后,计算其他命题为真的似然
  • 随机变量(random variable)是可以随机地取不同值的变量.
  • 随机变量可以是离散的或者连续的。
  • 离散随机变量拥有有限或者可数无限多的状态。
  • 注意这些状态不一定非要是整数;它们也可能只是一些被命名的状态而没有数值。
  • 连续随机变量伴随着实数值(associated with a real value)。

概率分布

  • 概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小
  • 描述概率分布的方式取决于随机变量是离散的还是连续的。

概率质量函数(分布律)

  • 离散型变量的概率分布可以用 概率质量函数(probability mass function, PMF)来描述。
  • 有时称之为概率分布分布律,有时它也被称为离散密度函数
  • 假设X是一个定义在可数样本空间S上的离散随机变量 S ⊆ R,则其概率质量函数 fX(x) 为
    ML@概率@常用分布@常用函数及其性质_概率论
  • 离散随机变量概率质量函数的不连续性决定了其累积分布函数也不连续。
  • 概率质量函数通常是定义离散概率分布的主要方法,并且此类函数存在于其定义域是离散的标量变量或多元随机变量
  • 概率质量函数概率密度函数的一个不同之处在于:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数本身不是概率,只有对连续随机变量的概率密度函数必须在某一个区间内被积分后才能产生出概率[2]
  • 具有最大概率质量的随机变量的值称为众数
  • 概率质量函数可以同时作用于多个随机变量。
  • 这种多个变量的概率分布被称为 联合概率分布(joint probability distribution)。
  • ML@概率@常用分布@常用函数及其性质_概率论_02 表示 ML@概率@常用分布@常用函数及其性质_概率分布_03ML@概率@常用分布@常用函数及其性质_概率分布_04 同时发生的概率。我们也可以简写为 ML@概率@常用分布@常用函数及其性质_算法_05

连续型变量和概率密度函数

  • 当我们研究的对象是连续型随机变量时,我们用 概率密度函数(probabilityML@概率@常用分布@常用函数及其性质_算法_06density function, PDF)而不是概率质量函数来描述它的概率分布。

函数成为概率密度的条件

  • 如果p是一个概率密度函数,满足以下条件:
  • p的定义域为ML@概率@常用分布@常用函数及其性质_算法_07的所有可能的集合
  • ML@概率@常用分布@常用函数及其性质_算法_08
  • ML@概率@常用分布@常用函数及其性质_概率论_09
  • 概率密度函数没有直接对特定的状态给出概率
  • 它给出了落在面积为ML@概率@常用分布@常用函数及其性质_机器学习_10的无限小的区域内的概率为ML@概率@常用分布@常用函数及其性质_概率分布_11
  • 在单变量情况下,ML@概率@常用分布@常用函数及其性质_条件概率_12落在区间ML@概率@常用分布@常用函数及其性质_概率分布_13的概率是ML@概率@常用分布@常用函数及其性质_概率论_14

边缘概率

  • 有时候,我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。
  • 这种定义在子集上的概率分布被称为 边缘概率分布(marginal probability distribution)。

条件概率

  • 在很多情况下,我们感兴趣的是某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率。
  • 我们将给定 ML@概率@常用分布@常用函数及其性质_机器学习_15 发生的条件概率记为ML@概率@常用分布@常用函数及其性质_条件概率_16。这个条件概率可以通过下面的公式计算:
  • ML@概率@常用分布@常用函数及其性质_条件概率_17
  • 条件概率只在 P (x = x) > 0 时有定义。
  • 概率不大于0的情况说明该事件永远不会发生,在不会发生的事件的基础上定义条件概率是没有意义的

条件概率的链式法则

  • 任何多维随机变量的联合概率分布,都可以分解为,只有一个变量的条件概率相乘的形式
  • ML@概率@常用分布@常用函数及其性质_概率分布_18

独立性和条件独立性

  • 两个随机变量 X和 Y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 X 另一个因子只包含 Y,我们就称这两个随机变量是 相互独立的(independent):
  • ML@概率@常用分布@常用函数及其性质_条件概率_19
  • 如果关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式,
    那么这两个随机变量 x 和 y 在给定随机变量 z 时是 条件独立的(conditionally independent):
  • ML@概率@常用分布@常用函数及其性质_条件概率_20
  • 我们可以采用一种简化形式来表示独立性和条件独立性:
  • ML@概率@常用分布@常用函数及其性质_条件概率_21
  • ML@概率@常用分布@常用函数及其性质_概率分布_22

期望、方差和协方差

期望(expectation)

  • 函数 ML@概率@常用分布@常用函数及其性质_概率论_23 关于某概率分布 ML@概率@常用分布@常用函数及其性质_算法_24 的 期望(expectation)或者 期望值(expected value)是指,当 ML@概率@常用分布@常用函数及其性质_概率分布_25 有概率 P可能发生(产生),ML@概率@常用分布@常用函数及其性质_概率分布_26 作用于 ML@概率@常用分布@常用函数及其性质_概率分布_25 时,ML@概率@常用分布@常用函数及其性质_概率论_23
  • 国内教材将随机变量函数表示为ML@概率@常用分布@常用函数及其性质_条件概率_29(随机变量是特殊的函数,它的定义域是样本空间ML@概率@常用分布@常用函数及其性质_概率分布_30)
  • ML@概率@常用分布@常用函数及其性质_条件概率_29是一个实数值(随机事件数值化,例如将抛硬币抛到正面记为映射为1)
  • 对于离散型随机变量,这可以通过求和得到:
  • ML@概率@常用分布@常用函数及其性质_条件概率_32
  • 对于连续型随机变量,可以通过求解积分:
  • ML@概率@常用分布@常用函数及其性质_概率分布_33

简写

  • 当概率分布P在上下文中指明时,我们可以只写出期望作用的随机变量的名称X来进行简化,例如 ML@概率@常用分布@常用函数及其性质_算法_34
  • 如果期望作用的随机变量X也很明确,我们可以完全不写脚标,就像 ML@概率@常用分布@常用函数及其性质_机器学习_35
  • 默认地,我们假设 ML@概率@常用分布@常用函数及其性质_条件概率_36
  • 类似的,当没有歧义时,我们还可以省略方括号ML@概率@常用分布@常用函数及其性质_概率分布_37

方差(variance)

  • 衡量的是当我们对 ML@概率@常用分布@常用函数及其性质_概率分布_25
  • ML@概率@常用分布@常用函数及其性质_概率分布_39
  • 当方差很小时,ML@概率@常用分布@常用函数及其性质_概率论_23
  • 方差的平方根被称为标准差(standard deviation)。
  • 协方差(covariance)在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度:
  • ML@概率@常用分布@常用函数及其性质_条件概率_41
  • 协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远
  • 如果协方差是正的,那么两个变量都倾向于同时取得相对较大的值。
  • 如果协方差是负的,那么其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得相对较小的值,反之亦然。
  • 其他的衡量指标如 相关系数(correlation)将每个变量的贡献归一化,为了只衡量变量的相关性而不受各个变量尺度大小的影响。
  • 协方差和相关性是有联系的,但实际上是不同的概念。
  • 它们是有联系的,因为两个变量如果相互独立那么它们的协方差为零,如果两个变量的协方差不为零那么它们一定是相关的。
  • 然而,独立性又是和协方差完全不同的性质。两个变量如果协方差为零,它们之间一定没有线性关系。
  • 独立性比零协方差要求更强,因为独立性还排除了非线性的关系
  • 两个变量相互依赖具有零协方差是可能的。
  • 例如,假设我们首先从区间 [−1, 1] 上的均匀分布采样出一个实数 ML@概率@常用分布@常用函数及其性质_条件概率_12
  • 然后我们对一个随机变量 s 进行采样
  • 发现:s 以 ML@概率@常用分布@常用函数及其性质_概率论_43
  • 我们可以通过令 y = sx 来生成一个随机变量 y
  • 显然,x 和 y 不是相互独立的,因为 x 完全决定了 y 的尺度。(TODO)
  • 然而,ML@概率@常用分布@常用函数及其性质_条件概率_44
  • 随机向量ML@概率@常用分布@常用函数及其性质_概率论_45的协方差矩阵(covariance matrix)是一个ML@概率@常用分布@常用函数及其性质_算法_46的矩阵
  • ML@概率@常用分布@常用函数及其性质_概率论_47
  • 协方差矩阵的对角元是方差
  • ML@概率@常用分布@常用函数及其性质_机器学习_48
  • 假设ML@概率@常用分布@常用函数及其性质_概率论_49是以ML@概率@常用分布@常用函数及其性质_机器学习_50个随机变量组成的列向量, ML@概率@常用分布@常用函数及其性质_概率论_51
  • ML@概率@常用分布@常用函数及其性质_算法_52ML@概率@常用分布@常用函数及其性质_概率分布_53的期望值,即, ML@概率@常用分布@常用函数及其性质_算法_54
  • 协方差矩阵的第ML@概率@常用分布@常用函数及其性质_概率分布_55项(第ML@概率@常用分布@常用函数及其性质_概率分布_55项是一个协方差)被定义为如下形式:
  • ML@概率@常用分布@常用函数及其性质_条件概率_57
  • ML@概率@常用分布@常用函数及其性质_条件概率_58

Multinoulli 分布

  • Categorical distribution - Wikipedia
  • Multinoulli 分布(multinoulli distribution)或者 范畴分布(categorical distribution)是指在具有 k 个不同状态的单个离散型随机变量上的分布,其中 k 是一个有限值
  • Multinoulli 分布是 多项式分布(multinomial distribution)的一个特例。
  • 多项式分布是 ML@概率@常用分布@常用函数及其性质_概率论_59 中的向量的分布,用于表示当对 Multinoulli 分布采样 n 次时 k 个类中的每一个被访问的次数
  • Multinoulli 分布由向量 ML@概率@常用分布@常用函数及其性质_机器学习_60 参数化,其中每一个分量 ML@概率@常用分布@常用函数及其性质_机器学习_61
  • 最后的第 k 个状态的概率可以通过 ML@概率@常用分布@常用函数及其性质_机器学习_62 给出。ML@概率@常用分布@常用函数及其性质_条件概率_63表示全1向量
  • 注意我们必须限制 ML@概率@常用分布@常用函数及其性质_机器学习_64
  • Multinoulli 分布经常用来表示对象分类的分布,所以我们很少假设状态 1 具有数值 1 之类的。
  • 因此,我们通常不需要去计算 Multinoulli 分布的随机变量的期望和方差。
  • Bernoulli 分布和 Multinoulli 分布足够用来描述在它们领域内的任意分布。
  • 因为它们的领域很简单,能够将所有的状态进行枚举的离散型随机变量进行建模
  • 当处理的是连续型随机变量时,会有不可数无限多的状态
  • 所以任何通过少量参数描述的概率分布都必须在分布上加以严格的限制。

高斯分布

实数上最常用的分布就是 正态分布(normal distribution),也称为 高斯分布(Gaussian distribution):

  • ML@概率@常用分布@常用函数及其性质_算法_65
  • 当我们要对概率密度函数求值时,根据函数解析式可知需要对 ML@概率@常用分布@常用函数及其性质_概率论_66
  • 当我们需要经常对不同参数(ML@概率@常用分布@常用函数及其性质_条件概率_67)下的概率密度函数求值时,一种更高效的参数化分布的方式是使用参数 ML@概率@常用分布@常用函数及其性质_算法_68,来控制分布的 精度(precision)(也就是方差的倒数ML@概率@常用分布@常用函数及其性质_概率论_69):
  • ML@概率@常用分布@常用函数及其性质_算法_70
  • ML@概率@常用分布@常用函数及其性质_条件概率_71
  • 采用正态分布在很多应用中都是一个明智的选择。当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因。
  • 第一,我们想要建模的很多分布的真实情况是比较接近正态分布的。
  • 中心极限定理(central limit theorem)说明很多独立随机变量的和近似服从正态分布。
  • 这意味着在实际中,很多复杂系统都可以被成功地建模成正态分布的噪声,即使系统可以被分解成一些更结构化的部分。
  • 第二,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。
  • 因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布
  • 正态分布可以推广到 ML@概率@常用分布@常用函数及其性质_概率分布_72 空间,这种情况下被称为 多维正态分布(multivariatenormal distribution)。
  • 它的参数是一个正定对称矩阵 Σ:
  • ML@概率@常用分布@常用函数及其性质_概率论_73
  • 参数 ML@概率@常用分布@常用函数及其性质_概率分布_74 仍然表示分布的均值,只不过现在是向量值
  • 参数 ML@概率@常用分布@常用函数及其性质_算法_75 给出了分布的协方差矩阵
  • 和单变量的情况类似,当我们希望对很多不同参数下的概率密度函数多次求值时,协方差矩阵并不是一个很高效的参数化分布的方式,因为对概率密度函数求值时需要对 ML@概率@常用分布@常用函数及其性质_算法_76(得到ML@概率@常用分布@常用函数及其性质_概率论_77)
  • 我们可以使用一个 精度矩阵(precision matrix)ML@概率@常用分布@常用函数及其性质_概率论_78 进行替代协方差矩阵ML@概率@常用分布@常用函数及其性质_概率分布_79
  • ML@概率@常用分布@常用函数及其性质_概率论_80
  • 我们常常把协方差矩阵固定成一个对角阵
  • 一个更简单的版本是 各向同性(isotropic)高斯分布,它的协方差矩阵是一个标量乘以单位阵

指数分布和 Laplace 分布

  • 在深度学习中,我们经常会需要一个在 ML@概率@常用分布@常用函数及其性质_概率分布_81
  • 为了实现这一目的,我们可以使用 指数分布(exponential distribution):
  • ML@概率@常用分布@常用函数及其性质_条件概率_82
  • 指数分布使用指示函数(indicator function)ML@概率@常用分布@常用函数及其性质_概率分布_83 来使得当 ML@概率@常用分布@常用函数及其性质_机器学习_84
  • 通常将指示函数的1用粗体写ML@概率@常用分布@常用函数及其性质_概率论_85(这不是说它是一个向量);有时也用字母ML@概率@常用分布@常用函数及其性质_概率分布_86来代替
  • 一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 µ 处设置概率质量的峰值
  • ML@概率@常用分布@常用函数及其性质_算法_87

艾佛森括号🎈(Iverson bracket)

  • Iverson bracket - Wikipedia
  • 在数学中,以Kenneth E. Iverson命名的“艾佛森括号”(Iverson bracket),是一种用方括号记号,
  • 如果方括号内的条件满足则为1,不满足则为0.
  • 更确切地讲:
  • ML@概率@常用分布@常用函数及其性质_条件概率_88
  • 此处 P 是一个可真可假的命题。该记号由Kenneth E. Iverson在他的编程语言APL中引进,而特别使用方括号则是由高德纳倡导的,目的是避免含括号的表达式中的歧义。

  • 艾弗森括号通过自然的映射ML@概率@常用分布@常用函数及其性质_机器学习_89将布尔值转化为整数值,这就允许计数被表示为和式。
  • 此记号使得将和式和积分式中繁多的条件移入并成为被加(积)项的一个因子成为可能。
  • 这将减少累加记号周围的空间,更重要的是这允许运算更加代数化。
  • 例如,
  • ML@概率@常用分布@常用函数及其性质_算法_90
  • 该式右侧正是运用了Iverson 括号
  • 例如,计数不超过n且与n互质的正整数的个数的欧拉函数可以表示为
  • the Euler phi function that counts the number of positive integers up to n which are coprime to n can be expressed by
  • ML@概率@常用分布@常用函数及其性质_算法_91
  • 互质是公约数只有1的两个整数,叫做互质整数
  • 公约数只有1的两个自然数,叫做互质自然数,后者是前者的特殊情形
  • 互质的两个数a,b不要求它们本身是质数,例如9和10
  • 如果已知a,b都是质数,那么a,b一定互质
  • 另一个例子是化简带特例的方程,例如公式
  • ML@概率@常用分布@常用函数及其性质_概率论_92
  • 函数ML@概率@常用分布@常用函数及其性质_条件概率_93是上面提到的函数
  • ML@概率@常用分布@常用函数及其性质_算法_94表示k,n的最大公约数(greatest common divisor)
  • 上式对一切ML@概率@常用分布@常用函数及其性质_概率论_95有效,但是n = 1时失效.
  • 此时左边为1,右边为1
  • 为了得到一个一切正整数n都成立的恒等式,可以利用艾弗森括号补充等式:
    ML@概率@常用分布@常用函数及其性质_概率论_96
  • 克罗内克函数 : ML@概率@常用分布@常用函数及其性质_算法_97
  • 符号函数和单位阶跃函数:
    ML@概率@常用分布@常用函数及其性质_算法_98
    ML@概率@常用分布@常用函数及其性质_概率分布_99
  • 最值与绝对值:
  • ML@概率@常用分布@常用函数及其性质_机器学习_100
  • 如果ML@概率@常用分布@常用函数及其性质_机器学习_101,则ML@概率@常用分布@常用函数及其性质_机器学习_102,那么ML@概率@常用分布@常用函数及其性质_概率论_103
  • 类似的,如果ML@概率@常用分布@常用函数及其性质_条件概率_104,者ML@概率@常用分布@常用函数及其性质_算法_105,同时ML@概率@常用分布@常用函数及其性质_概率分布_106,那么ML@概率@常用分布@常用函数及其性质_机器学习_107
  • ML@概率@常用分布@常用函数及其性质_概率论_108
  • ML@概率@常用分布@常用函数及其性质_算法_109
  • 上下取整函数:
  • ML@概率@常用分布@常用函数及其性质_概率论_110
  • ML@概率@常用分布@常用函数及其性质_概率论_111

指示函数🎈

  • In mathematics, an indicator function or a characteristic function of a subset of a set is a function that maps elements of the subset to one(1), and all other elements to zero(0).
  • That is, if A is a subset of some set X,
  • one has ML@概率@常用分布@常用函数及其性质_概率论_112 if ML@概率@常用分布@常用函数及其性质_概率论_113
  • and ML@概率@常用分布@常用函数及其性质_概率分布_114
  • where ML@概率@常用分布@常用函数及其性质_机器学习_115
  • Other common notations are ML@概率@常用分布@常用函数及其性质_概率分布_116 and ML@概率@常用分布@常用函数及其性质_概率论_117
  • The indicator function of A is the Iverson bracket of the property of belonging to A; that is,
    ML@概率@常用分布@常用函数及其性质_条件概率_118
  • For example, the Dirichlet function is the indicator function of the rational numbers as a subset of the real numbers.

Dirac分布

  • 有时我们希望概率分布中的所有质量都集中于一个点
  • 可以通过Dirac delta 函数(Dirac delta function),记为ML@概率@常用分布@常用函数及其性质_概率论_119,用ML@概率@常用分布@常用函数及其性质_概率论_119来定义概率密度函数来实现
  • ML@概率@常用分布@常用函数及其性质_算法_121
  • ML@概率@常用分布@常用函数及其性质_条件概率_122函数定位为,除了再0以外的所有点的值都为0,但是积分为1
  • 它不像普通函数对ML@概率@常用分布@常用函数及其性质_条件概率_123的每个值都有一个实数值输出,而是一种不同类型的数学对象,成为(广义函数generalized function)
  • 广义函数是根据积分性质定义的数学对象
  • ML@概率@常用分布@常用函数及其性质_概率分布_124函数想象成一系列函数的极限点,这一系列函数把除0以外的所有点的概率密度越变越小
  • 通过把 p(x) 定义成 δ 函数右移ML@概率@常用分布@常用函数及其性质_机器学习_125 个单位,我们得到了一个在 ML@概率@常用分布@常用函数及其性质_机器学习_126 处具有无限窄也无限高的峰值的概率质量。

经验分布

  • Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现:
  • ML@概率@常用分布@常用函数及其性质_机器学习_127
  • 经验分布将概率密度ML@概率@常用分布@常用函数及其性质_机器学习_128赋给ML@概率@常用分布@常用函数及其性质_算法_129个点ML@概率@常用分布@常用函数及其性质_条件概率_130
  • 这些点是给定的数据集或者采样的集合
  • 只有在定义来连续型随机变啊零的经验分布时,ML@概率@常用分布@常用函数及其性质_条件概率_122函数才是必要的
  • 定义离散型变量,更加简单,经验分布可以被定义为Multinoulli分布
  • 对于每个可能的输入,其概率可以设为在训练集上该输入值的经验频率(empirical frequency)
  • 当我们在训练集上训练模型时,可以认为这个训练集上得到的经验分布指明了我们采样来源的分布.
  • 关于经验分布的一个重要观点是,它是训练数据的似然最大的概率密度函数

分布的混合

  • 通过组合一些简单的概率分布来定义新的概率分布也是很常见的。
  • 一种通用的组合方法是构造 混合分布(mixture distribution)。
  • 混合分布由一些组件 (component)分布构成。
  • 每次实验,样本是由哪个组件分布产生的取决于从一个 Multinoulli 分布中采样的结果
  • ML@概率@常用分布@常用函数及其性质_机器学习_132
  • 这里 P © 是对各组件的一个 Multinoulli 分布。
  • 我们已经看过一个混合分布的例子了:实值变量的经验分布对于每一个训练实例来说,就是以 Dirac 分布为组件的混合分布。
  • 混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略。

潜变量(latent variable)

  • 潜变量(latent variable)是我们不能直接观测到的随机变量。
  • 混合模型的组件标识变量 c 就是其中一个例子。
  • 潜变量在联合分布中可能和 x 有关,在这种情况下,ML@概率@常用分布@常用函数及其性质_算法_133
  • 潜变量的分布 ML@概率@常用分布@常用函数及其性质_概率分布_134 以及关联潜变量观测变量的条件分布ML@概率@常用分布@常用函数及其性质_概率论_135,共同决定了分布 ML@概率@常用分布@常用函数及其性质_概率论_136

高斯混合模型GMM

  • 一个非常强大且常见的混合模型是 高斯混合模型(Gaussian Mixture Model),它的组件 ML@概率@常用分布@常用函数及其性质_概率论_137
  • 每个组件都有各自的参数,均值 ML@概率@常用分布@常用函数及其性质_概率论_138 和协方差矩阵 ML@概率@常用分布@常用函数及其性质_机器学习_139
  • 有一些混合可以有更多的限制。例如,协方差矩阵可以通过 ML@概率@常用分布@常用函数及其性质_条件概率_140, ML@概率@常用分布@常用函数及其性质_概率论_141
  • 和单个高斯分布一样,高斯混合模型有时会限制每个组件的协方差矩阵为对角的或者各向同性的 (标量乘以单位矩阵)。
  • 除了均值和协方差以外,高斯混合模型的参数指明了给每个组件 ML@概率@常用分布@常用函数及其性质_算法_142先验概率(prior probability)
  • ML@概率@常用分布@常用函数及其性质_机器学习_143
  • ‘‘先验’’ 一词表明了在观测到 ML@概率@常用分布@常用函数及其性质_算法_144
  • 作为对比,ML@概率@常用分布@常用函数及其性质_机器学习_145后验概率(posterior probability),因为它是在观测到 x 之后进行计算的。
  • 高斯混合模型是概率密度的 万能近似器(universal approximator),在这种意义下,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近

常用函数的有用性质

  • 某些函数在处理概率分布时经常会出现,尤其是深度学习的模型中用到的概率分布。

Logistic sigmoid

  • 其中一个函数是 logistic sigmoid 函数:
  • ML@概率@常用分布@常用函数及其性质_概率论_146
  • 对分子和分布同时乘以ML@概率@常用分布@常用函数及其性质_机器学习_147,得到ML@概率@常用分布@常用函数及其性质_机器学习_148
  • ML@概率@常用分布@常用函数及其性质_算法_149
  • ML@概率@常用分布@常用函数及其性质_条件概率_150
  • ML@概率@常用分布@常用函数及其性质_机器学习_151
  • ML@概率@常用分布@常用函数及其性质_机器学习_152
  • ML@概率@常用分布@常用函数及其性质_算法_153
  • 指数运算的性质:
  • ML@概率@常用分布@常用函数及其性质_概率分布_154
  • ML@概率@常用分布@常用函数及其性质_条件概率_155
  • logistic sigmoid 函数通常用来产生 Bernoulli 分布ML@概率@常用分布@常用函数及其性质_概率分布_156中的参数 ML@概率@常用分布@常用函数及其性质_概率论_157,因为它的范围是(0, 1),处在 ϕ 的有效取值范围内。
  • sigmoid 函数在变量取绝对值非常大的正值或负值时会出现 饱和(saturate)现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。

softplus

  • 另外一个经常遇到的函数是 softplus 函数(softplus function)
  • ML@概率@常用分布@常用函数及其性质_概率论_158
  • softplus 函数可以用来产生正态分布的 ML@概率@常用分布@常用函数及其性质_机器学习_159ML@概率@常用分布@常用函数及其性质_机器学习_160
  • 当处理包含 sigmoid 函数的表达式时它也经常出现。
  • softplus 函数名来源于它是另外一个函数的平滑(或 ‘‘软化’’)形式,这个函数是
  • ML@概率@常用分布@常用函数及其性质_概率分布_161
  • ML@概率@常用分布@常用函数及其性质_算法_162
  • ML@概率@常用分布@常用函数及其性质_概率分布_163
  • ML@概率@常用分布@常用函数及其性质_概率论_164

重要性质小结(sigmoid@softplus)

  • ML@概率@常用分布@常用函数及其性质_算法_165
  • ML@概率@常用分布@常用函数及其性质_算法_166

补充推导

  • 函数 ML@概率@常用分布@常用函数及其性质_算法_167 在统计学中被称为 分对数(logit),但这个函数在机器学习中很少用到。
  • Logit - Wikipedia
  • 优势比(odds ratio;OR)是另外一种描述概率的方式
  • 优势比将会告诉我们某种推测的概率比其反向推测的概率大多少。
  • 换句话说,优势比是指某种推测为真的概率与某种推测为假的概率的比值。
  • 比如下雨的概率为0.25,不下雨的概率为0.75。0.25与0.75的比值可以约分为1比3。因此,我们可以说今天将会下雨的优势比为1**:3(或者今天不会下雨的概率比为3😗*1)。
  • Mathematically, the logit is the inverse of the standard logistic function ML@概率@常用分布@常用函数及其性质_算法_168, so the logit is defined as
    ML@概率@常用分布@常用函数及其性质_算法_169
  • Note:这里的ML@概率@常用分布@常用函数及其性质_概率分布_170是反函数的意思,而不是倒数的意思🎈
    ML@概率@常用分布@常用函数及其性质_概率论_171
  • 替换字母符号,写为ML@概率@常用分布@常用函数及其性质_概率论_172
  • Because of this, the logit is also called the log-odds since it is equal to the logarithm of the odds ML@概率@常用分布@常用函数及其性质_算法_173 where p is a probability. Thus, the logit is a type of function that maps probability values from ML@概率@常用分布@常用函数及其性质_概率分布_174 to real numbers in ML@概率@常用分布@常用函数及其性质_概率论_175,[1] akin to the probit function.
  • If p is a probability, then ML@概率@常用分布@常用函数及其性质_条件概率_176 is the corresponding odds; the logit of the probability is the logarithm of the odds, i.e.:
    ML@概率@常用分布@常用函数及其性质_概率论_177
  • 关于softplus的反函数:ML@概率@常用分布@常用函数及其性质_概率论_178
  • ML@概率@常用分布@常用函数及其性质_条件概率_179
  • 所以ML@概率@常用分布@常用函数及其性质_概率分布_180
  • ML@概率@常用分布@常用函数及其性质_机器学习_181
  • ML@概率@常用分布@常用函数及其性质_算法_182

正部函数@负部函数

  • Positive and negative parts - Wikipedia
  • In mathematics, the positive part of a real or extended real-valued function is defined by the formula
    KaTeX parse error: Undefined control sequence: \mbox at position 46: …{cases} f(x) & \̲m̲b̲o̲x̲{ if } f(x) > 0…
    Intuitively, the graph of ML@概率@常用分布@常用函数及其性质_机器学习_183 is obtained by taking the graph of ML@概率@常用分布@常用函数及其性质_概率分布_26, chopping off the part under the x-axis, and letting ML@概率@常用分布@常用函数及其性质_机器学习_183 take the value zero there.
    Similarly, the negative part of f is defined as
    KaTeX parse error: Undefined control sequence: \mbox at position 74: …n{cases}-f(x)&{\̲m̲b̲o̲x̲{ if }}f(x)<0\\…
  • Note that both f+ and f− are non-negative functions. A peculiarity of terminology is that the ‘negative part’ is neither negative nor a part (like the imaginary part of a complex number is neither imaginary nor a part).
    The function f can be expressed in terms of f+ and f− as
    ML@概率@常用分布@常用函数及其性质_概率论_186
    Also note that
    ML@概率@常用分布@常用函数及其性质_算法_187.
    Using these two equations one may express the positive and negative parts as
    ML@概率@常用分布@常用函数及其性质_条件概率_188
    ML@概率@常用分布@常用函数及其性质_概率论_189
    Another representation, using the Iverson bracket is
    ML@概率@常用分布@常用函数及其性质_概率论_190
    ML@概率@常用分布@常用函数及其性质_算法_191
  • softplus 函数被设计成 正部函数(positive part function)的平滑版本,这个正部函数是指 ML@概率@常用分布@常用函数及其性质_概率分布_192
  • 与正部函数相对的是 负部函数(negative part function)ML@概率@常用分布@常用函数及其性质_算法_193
  • 为了获得类似负部函数的一个平滑函数,我们可以使用 ML@概率@常用分布@常用函数及其性质_条件概率_194
  • 就像 x 可以用它的正部和负部通过等式 ML@概率@常用分布@常用函数及其性质_算法_195 恢复一样,我们也可以用同样的方式对 ML@概率@常用分布@常用函数及其性质_条件概率_196进行操作