本章的目的:1. 说明概率分布中随机变量的独立性如何用于紧凑地表示高纬度分布。2. 有向无圈图的建立。
一.基本原理
1. 前面提到了独立性和条件独立性,这张中首先是分布参数化,并利用独立性减少参数,简化分布。
2. 独立性的运用——朴素贝叶斯模型(假设在某种条件下,所有变量两两互斥,那么所有变量的联合概率模型可以简化为各个个变量的条件概率相乘。)
3. 贝叶斯网
上图是学生实力的贝叶斯图。学生事例伴随着整本书,本章通过这个事例来学习贝叶斯网。学生事例:课程C的难度(Difficulty,后面简称D)和学生的智商(Intelligence,简称I),决定了其这门课程的考试成绩(Grade,简称G),学生的智力影响其SAT的得分(简称S),学生要找工作,面试官让学生请教课老师写推荐信(Letter,简称L),而课程C的老师写推荐信的依据是学生该门课程的成绩。因此,得到以上关系图。
(1) 推理模型
因果模型:从原因“顺流而下”推测结果,例如从D、I->G,I->S,G->L。
证据推理:从结果推理原因(又称解释推理)。上图中,G可作为证据直接推理D、I,然后间接的推断S。
(2) 贝叶斯网的基本独立性
一旦知道了一个节点的父节点的值,那么与其父节点或者其他祖先节点有关的信息都不会影响到该节点的可信度。但,其后代节点可通过证据推理影响我们对该节点的判断。例如上图,如果G确定了,那么D和I对L没有影响,即
;当D和I确定时,如果L的值是好,G为A的概率比L的值是差,G为A的概率高。
这就是局部独立性。
4. 图的独立性(d-分离)
因果迹 证据迹 共同原因迹 共同证据迹
以上4图中,前面3图,当Z观察到时,X与Y独立,而最后一图,当Z未被观察到时,X与Y独立。最后一图被称为V-结构。当Z被观察到时,X与Y不独立,那么X<->Z<->Y可通,是有效迹,把有效迹扩大理解,当一条迹X1-X2-…-Xn中包含Xi-1->Xi<-Xi+1这样的V结构,且此V-结构为有效迹,那么这条迹也是有效迹。
d-分离的定义:
d-分离算法的核心就是找阻塞的v-结构。
二.图
1. I-map(独立图)
P满足与图g相关的局部独立性,那么图g是P的一个I-map,P可能有多个I-map。例如,当G确定,以下两个都是学生事例的I-map.
2. I-map的因子分解
3. 最小I-map
当图k是独立关系集I的一个I-map,且从k中移除任意一条边都会使其不再是I-map,那么图k是I的最小I-map.
最小I-map可能有很多个。最小I-map因变量的次序不同,其结构和独立性使很不同的。例如,以下均是最小I-map
构建I-map的算法:序列{X1,X2,…,Xn},依次检查Xi,i=1,2,…,n。对每个Xi选择{X1,…,Xi-1}的一个最小子集U来表示g中Xi的父节点,且有当U已知的条件下,Xi独立于{ X1,…,Xi-1}-U,并任何节点从U中移除都会破坏这个性质,然后令U为Xi父节点即可。
4. P-map
从不同的变量出发,构建出的I-map各不相同。因此,分布P的一个I-map远远不能保证刻画出P的独立结构。
P-map就是刻画分布的所有独立性的图。
一个分布不一定存在P-map,存在P-map的分布可能存在多个P-map,但所有的P-map都是I-等价的。
P-map的构造:
(1).首先,构建出P-map骨架。找两个变量的分离见证(证据变量),如果找到了,移到下一对变量,如果没有,说明这对变量相邻,将其添加到骨架中。
(2).识别非正规的结构。
(3).表示等价类。