先从狄利克雷过程的motivation开始说起,如果我们有一些数据,这些数据是从几个高斯分布中得出的,也就是混合高斯模型中得出的,比如下图这样

狄利克里LDA应用 狄利克雷照片_f5

但是呢,我们并不知道混合高斯模型中到底有多少个高斯分布,它可能是这样

狄利克里LDA应用 狄利克雷照片_权重_02

也可能是这样

狄利克里LDA应用 狄利克雷照片_权重_03

 

在这个情况下,最大期望算法并不能解决这个问题,所以我们就需要狄利克雷过程来帮助我们。现实生活中的例子可以是,我有一堆论文但是我不知道这些论文到底讨论了多少论题。

狄利克里LDA应用 狄利克雷照片_权重_04


狄利克里LDA应用 狄利克雷照片_f5_05

狄利克里LDA应用 狄利克雷照片_f5_06

狄利克里LDA应用 狄利克雷照片_狄利克里LDA应用_07

 

狄利克里LDA应用 狄利克雷照片_狄利克里LDA应用_08

 迪利克雷过程的性质:

 G~DP(a,H) <=> (G(a1),...G(ak)) ~ DIR(aH(a1),...,aH(ak))

 

 P(G|θ1.....θn)  : G的后验 

 P(θ1.....θn|G):G的先验,因为G是一个分布,所以先验就为G

 P(G):多项式似然函数

根据贝叶斯理论 ,P(G|θ1.....θn)  正比与 P(θ1.....θn|G) * P(G)

 

一个离散的分布P服从DIR迪利克雷分布,数据n1...nk服从多项式分布

(P1,...PK)~DIR(a1,...,ak)

(n1,...,nk)~mult(P1,...PK)

那么P(P1,...PK|n1,...,nk) = DIR(a1+n1,...,ak+nk)

 类比下来

P(G(a1),...G(ak) | n1,...,nk) 正比与mult(n1,...,nk | G(a1),...G(ak))* DIR(aH(a1),...,aH(ak)) = DIR(aH(a1)+a1,...,aH(ak)+ak)

根据这个性质:G~DP(a,H) <=> (G(a1),...G(ak)) ~ DIR(aH(a1),...,aH(ak))

狄利克里LDA应用 狄利克雷照片_权重_09

δ是狄拉克函数,在集合里面取1,在集合外面取0,集合在这里是指基分布(H)被划分成的区间,\delta δ就是统计有多少atom落在每个区间的个数。

狄利克里LDA应用 狄利克雷照片_f5_10

为一个连续的分布+一个离散的分布(称为 stick and slab)