前言

马尔科夫链在RBM的训练中占据重要地位,因为它提供了从复杂的概率分布(比如马尔科夫随机场MRF的吉布斯分布)中提取样本。这一部分主要就是对马尔科夫链做个基本的理论介绍,将要着重强调的是,将吉布斯采样作为一种马尔科夫链蒙特卡洛方法去训练马尔科夫随机场以及训练RBM。

马尔科夫链

一个马尔科夫链是离散时间的随机过程,系统的下一个状态仅仅依赖当前的所处状态,与在它之前发生的事情无关。形式上,一个马尔科夫链是一组随机变量X={X(k)|k∈N0},取值是一个有限集Ω,而且对于∀k≥0以及∀j,i,i0,⋯,ik−1∈Ω都有


p(k)ij=Pr(X(k+1)=j|X(k)=i,X(k−1)=ik−1,⋯,X(0)=i0)=Pr(X(k+1)=j|X(k)=i)


上式中表达出的‘无记忆’随机过程经常也被称为

马尔科夫特性 ,如果对于所有

k≥0的时间点, p(k)ij都有相同的 pij(转移概率不会随着时间而改变),这个链达到了稳态(homogeneous),矩阵 P=(pij)i,j∈Ω称为稳态马尔科夫链的转移矩阵。

如果初始分布μ(0)(即X(0)的概率分布)是由概率向量μ(0)=(μ(0)(i))i∈Ω给出的,其中μ(0)(i)=Pr(X(0)=i),那么X(k)的分布μ(k)是由μ(k)T=μ(0)TPk给出的。

对于πT=πTP中的π,则称为稳态分布,如果马尔科夫链在k时刻达到稳态分布μ(k)=π,那么所有的后续状态都是相同分布,也就是说对于所有的n∈N都有μ(k+n)=π。关于马尔科夫链的分布π为稳态分布的一个充分不必要条件是,对于转移概率pij,i,j∈Ω中∀i,j∈Ω都有


π(i)pij=π(j)pji


这就称为细致平稳条件(detailed balanced condition)

对于马尔科夫链,存在唯一的一个稳态分布。这就是在有限状态空间Ω中,马尔科夫链不可约的案例。不可约的意思就是任何一个状态都能通过其它状态的有限次转移得到,公式表示就是,∀i,j∈Ω∃k>0都有Pr(X(k)=j|X(0)=i)>0

如果链上所有的状态都是无规律发生的,就称为非周期性。公式表示就是,对于∀i∈Ω,集合k∈N0|Pr(X(k)=i|X(0)=i)>0的所有元素的最大公约数是1。在有限状态空间中的,不可约,非周期性的马尔科夫链能够保证收敛到一个稳态分布。假设有限状态空间中有两个分布α和β,变量距离可以被定义为


dV(α,β)=12|α−β|=12∑x∈Ω|α(x)−β(x)|


为了方便标记,我们让行和列的概率向量作为上式的函数自变量,这样我们就有如下定理

假设π是有限状态空间中的,不可约非周期的马尔科夫链的稳态分布,转移概率矩阵为P,对于任意的初始分布μ都有

>limk→∞dV(μTPk,πT)=0>


马尔科夫链蒙特卡洛方法,利用收敛定律,通过建立一个收敛到期望分布的马尔科夫链,然后从概率分布中生成样本。假设你想从具有有限状态空间的分布q中进行采样,随后就应该建立一个不可约、非周期的马尔科夫链,而且它的稳态分布π=q。这是一个非平凡问题(non-trivial task)。如果k足够大,那么从马尔科夫链中重构X(k)的状态x(k),就会逼近与π中的一个样本,也是q中的。吉布斯采样就是这样一种马尔科夫链蒙特卡洛MCMC方法。

吉布斯采样

吉布斯采样是一种简单的MCMC方法,从多元随机变量的联合概率分布中产生样本。最基本的想法就是,依据条件分布更新每一个变量,而条件分布的条件就是给定除此变量以外的其它变量的状态,如此构造一个马尔科夫链。随后我们将描述,如何从一个马尔科夫随机场MRF的吉布斯分布中,利用吉布斯采样生成(近似)样本。

我们假设一个马尔科夫随机场为X=(X1,⋯,XN),即一个无向图模型G=(V,E),其中V={1,⋯,N}是为了做更清楚的标记。随机变量Xi,i∈V在有限集Λ中取值,并且π(x)=1Ze−ε(x)是X的联合概率分布。此外,如果我们假设马尔科夫随机场随着时间改变状态,就可以将X={X(k)|k∈N0}当做从Ω=ΛN中取值的马尔科夫链。那么X(k)=(X(k)1,⋯,X(k)N)就描述了一个马尔科夫随机场在时刻k≥0的状态。在接下来的两个后继时间节点中,链上新状态的产生都需要经过以下步骤

  1. 从概率q(i)中随机挑选一个变量Xi,i∈V,这里的概率q(i)是由V中的严格为正的概率分布q给出的。
  2. X(i)的新状态就是给定其它所有变量(Xv)v∈V∖i的状态(xv)v∖i,然后基于其条件概率分布采样得到的。依据条件随机场的局部马尔卡夫特性有π(xi|(xv)v∈V∖i)=π(xi|(xw)w∈ℵi)。马尔科夫随机场的两个状态x,y,x≠y的转移概率pxy是
    pxy={q(i)π(yi|(xv)v∈V∖i),0,if ∃i∈Vso that ∀v∈Vwith v≠i:xv=yv)else
    马尔科夫随机场x的状态保持一致的概率,即pxx=∑i∈Vq(i)π(xi|(xv)v∈V∖i)

吉布斯链的收敛:为了证明由这些转移概率定义的马尔科夫链(因而被称作吉布斯连),收敛到马尔科夫随机场的联合分布π,我们需要证明π是吉布斯链的稳态分布,而且这个链是不可约非周期的。

从细致平稳条件中,很容易发现π是稳态分布:如果x和y在多个随机变量数值上有差异,就遵循一个事实pxy=Pyx=0。假设x和y仅仅在一个确定的变量Xi上的状态不同,比如当j≠i的时候yj=xj且yi≠xi ,那么


π(x)pxy=π(x)q(i)π(yi|(xv)v∈V∖i)=π(xi,(xv)v∈V∖i)q(i)π(yi,(xv)v∈V∖i)π((xv)v∈V∖i)=π(yi,(xv)v∈V∖i)q(i)π(xi,(xv)v∈V∖i)π((xv)v∈V∖i)=π(y)q(i)π(xi|(xv)v∈V∖i)=π(y)pyx


这样就满足了细致平稳条件,而且

π就是平稳分布。

因为π是严格为正的,因而是单一变量的条件概率分布。这就意味着,每个单一变量Xi在一个单一的转移步骤中,可以取每一个状态xi∈Λ,而且整个马尔科夫随机场中的每个状态都能经过有限步骤转移到ΛN的任何其它状态。因此马尔科夫链就是不可约的。此外,对于所有的x∈ΛN,因为它还服从正的条件分布pxx>0,,所以这个马尔科夫链也是非周期的。不可约和非周期性就保证了链能够收敛到稳态分布π

实际中,单个随机变量不是基于分布q随机选择更新的,而是有一个固定的预定义顺序。对应的算法经常依赖于周期吉布斯采样器periodic Gibbs sampler。如果P是吉布斯链的转移矩阵,周期吉布斯采样器到马尔科夫随机场的稳态分布的收敛率,其界限可以使用下列不等式定义:


|μPk−π|≤12|μ−π|(1−e−NΔ)k


其中

Δ=supl∈Vδl,而且 δl=sup{|ε(x)−ε(y)|;xi=yi ∀i∈V with i≠l},其中 μ是任意的起始分布, 12|μ−π|是变量距离。这里有一个符号叫做 sup,表示数理统计中的 格里文科(Gelivenko)定理

吉布斯采样和梅特罗波利斯哈斯廷斯算法 吉布斯采样属于梅特罗波利斯哈斯廷斯采样算法的一个更广泛的类别。这一类中所有的MCMC算法都利用两个步骤生成马尔科夫链的转移:

  1. 随机挑选一个候选状态,称为提议分布proposal distribution
  2. 候选状态根据一个接受概率acceptance probability,转移到马尔科夫链上的一个新状态,保证细致平稳条件

吉布斯采样的提议分布经常是翻转单个随机变量的当前状态,建议状态的接受概率就是一个条件概率,其条件就是给定的其它随机变量状态。

从易辛模型Ising Model中采样时,采样的提议分布(翻转状态)结合了接受概率 min(1,π(x′)π(x)),其中x代表当前状态,x′代表马尔科夫链上的新状态。