2.2 多元变量

二元变量可以描述两种可能中取其中一种情况的值的数量,然而,我们遇到的离散变量往往可以从K种相互排斥的状态中取值。尽管有很多可选择的方法来表示这种变量,但我们采用特别方便的1-K组合表示方法,该方法中的变量由一个K维的向量X表示,向量中只有一个元素为1,其余的都取值为0.比如,我们有一个K=6状态的变量和该变量的一次特定观察,在该观察中碰巧符合状态3取值为1x3=1,那么X可表示为:

 

模式识别与机器学习--2.2多元变量_机器学习

注意,这种向量满足 .如果将xk=1的概率记为uk,那么X的分布为:

模式识别与机器学习--2.2多元变量_多变量_02

这里模式识别与机器学习--2.2多元变量_职场_03 ,因为参数uk表示概率,所以严格满足 uk0 而且 。(2.26)的分布可以看做是伯克利分布在超过两个输出的推广。显见,该分布的归一化为:

模式识别与机器学习--2.2多元变量_休闲_04

 

模式识别与机器学习--2.2多元变量_机器学习_05

 

现在考虑一个N次独立观察模式识别与机器学习--2.2多元变量_多变量_06的数据集模式识别与机器学习--2.2多元变量_职场_07。它的似然函数响应为:

模式识别与机器学习--2.2多元变量_模式识别_08

可见,似然函数仅取决于N个数据点上的K的数量

模式识别与机器学习--2.2多元变量_休闲_09

 

表示观察中模式识别与机器学习--2.2多元变量_模式识别_10 的次数。这些称为该分布的充分统计量(sufficient statistics)。

 

    为了计算出模式识别与机器学习--2.2多元变量_机器学习_11的最大似然解,在考虑模式识别与机器学习--2.2多元变量_机器学习_12必须满足和为1的限制下对每个模式识别与机器学习--2.2多元变量_机器学习_12使得模式识别与机器学习--2.2多元变量_模式识别_14值最大。这可以通过拉格朗日乘子(Lagrange multiplier模式识别与机器学习--2.2多元变量_机器学习_15和最大化模式识别与机器学习--2.2多元变量_多变量_16

 

对每个模式识别与机器学习--2.2多元变量_多变量_17使得(2.31)的导数为0,得到:模式识别与机器学习--2.2多元变量_模式识别_18

将(2.32)式带入约束条件模式识别与机器学习--2.2多元变量_休闲_19 可以解得   模式识别与机器学习--2.2多元变量_机器学习_20。由此,最大似然解为:

 

模式识别与机器学习--2.2多元变量_多变量_21 

它正好是N次观察中xk=1的所占的比例。

 

    在参数模式识别与机器学习--2.2多元变量_机器学习_22以及总的观察次数N的条件下,来考虑模式识别与机器学习--2.2多元变量_职场_23的联合分布。从(2.29)可知该条件分布的形式为

模式识别与机器学习--2.2多元变量_休闲_24

 

它被称为多元分布。归一化参数是N个对象分成K个大小为m1m2mk组,它表示为

 

模式识别与机器学习--2.2多元变量_机器学习_25

 

注意变量mk服从约束

模式识别与机器学习--2.2多元变量_多变量_26