来衡量一个假设集的复杂度。这样做的缺点是,对于具有无限个假设的假设集我们得到了两个不符合直觉的结论:(1)它们的复杂度都是无穷大,但沿轴矩形的学习问题证明具有无限个假设的假设集是PAC可学习的。(2)它们的复杂度都相等,但我们知道,线性假设集的复杂度肯定没有次多项式假设集的复杂度高。因此,我们自然需要寻找新的方法来度量一个假设集的复杂度而不是简单地用假说集合的大小来判断。
本章重点:
- 使用基于McDiarmid不等式的Rademacher复杂度来度量假设集的复杂度和丰富性。推导基于Rademacher复杂度的泛化边界。但对于某些假设集来说,经验Rademacher复杂度的计算是NP难的。
- 引入增长函数的概念,使其计算假设集的复杂性不依赖于样本的分布,并将增长函数与Rademacher复杂度联系起来。
- 计算假设集的增长函数是困难的,随后引入维的概念,并将增长函数与维联系起来,推导基于维的泛化边界。
1、Rademacher复杂度
表示假设集,就是中的一个假设(从输入空间到输出空间的映射)。对任意损失函数。对于每个,我们可以用函数表示从到映射。是的集合,用于表示与有关的损失函数族。
Rademacher复杂度通过测量假设集对随机噪声的拟合程度来表征函数族的丰富性。下面将讲述经验Rademacher复杂度和平均Rademacher复杂度的正式定义。
定义1: 经验Rademacher复杂度:
是一族从映射到的函数族,来自空间中大小为的样本集,其中,则在样本上的经验Rademacher复杂度定义为:
其中,,是取值为独立随机变量,被称为Rademacher变量。
- 样本。
- 用来表示用假设来预测所产生的误差,即损失函数。
表示在样本上的向量:。则经验Rademacher复杂性可以改写为:
度量了(单个函数在样本集上)与随机噪声向量的相关性。取上确界表示函数在样本上与噪声的相关性 。取期望(经验Rademacher复杂度)表示函数族在上与噪声的平均相关性,这也就描述了函数族的丰富度:更丰富、更复杂的函数族可以产生更多的,在平均水平上更好的拟合随机噪声。
定义2:Rademacher复杂度:
是样本的分布。对于任意整数,的Rademacher复杂度是根据分布下个样本的经验Rademacher复杂性的期望:
平均Rademacher复杂度移除了对特定样本集的依赖,更加平均地度量了一个函数族的复杂程度(但仍与分布有关)。
在基于Rademacher复杂度推导第一个泛化边界之前,先介绍McDiarmid不等式。
McDiarmid不等式:令为独立随机变量的集合,假设存在,使得满足以下条件:
对所有的以及任意的点都成立。令 表示 ,那么对所有的,下面的不等式成立:
定理1:
是一系列从映射到的函数族。对任何,中的每一个函数,都至少以概率,下述两个式成立:
证明:对于任意在空间上的样本集和任意函数,用来表示在上的的经验平均值: 。利用McDiarmid不等式,在任意样本上定义函数:
和表示只有一个点不同的样本,即,。则有:
根据最大值的差一定不超过差的最大值可得:
转变为上面的(3.6)式。
,因此,。应用McDiarmid第一个不等式,经变换有如下形式:
令可得 对任何 ,至少以概率下式成立:
接下来,我们对等式右边的期望做如下缩放:
中的点是独立同分布采样的,所有成立。不等式(3.9)利用了Jensen不等式和上确界函数的凸性。等式(3.11),引入Rademacher变量,
Jensen不等式简述:是均匀分布的独立随机变量。不会改变(3.10)中的期望。当时,相应的和保持不变,当时,相应的求和就会变号,这与在和之间交换和一样,交换不影响期望值。对于(3.12)由可得。(3.13)源于Rademacher复杂度的定义。
于是则有:
将左边的式子右移可得:
对于第二个不等式的证明:
应用McDiarmid不等式中的第二个不等式有,
令可得,即至多以概率保证成立。将这个式子带入到第一个不等式中即可得到第二个不等式的推导。
引理1:令为取值为的函数族,令为与相对应的且损失函数为损失的函数族,,对于任何在空间上的样本集,将在上的投影记做,那么,下列关于与的经验Rademacher复杂度的不等式成立:
证明: 对于任何一个样本,经验Rademacher复杂度可被重写为:
,根据假设集的复杂性,这些经验Rademacher复杂度和平均Rademacher复杂度之间的联系可以用来推导二元分类的泛化界限。
的经验Rademacher复杂度与0-1损失下与 相关的损失函数族的经验Rademacher复杂度联系在了一起。
定理2:二分类的Rademacher复杂度边界:
令为取值为的函数族,是输入空间的分布。对任意,在分布的样本集上,至少概率,对任意以下两个式子成立:
对于第二个式子,是在特定样本集上的函数,只要计算出,就可以计算出的上界。的计算等价于经验风险最小化问题:
对于某些假设集计算起来是困难的。所以有时计算是困难的。
2、增长函数(Growth Function)
这一节,经验Rademacher复杂度将被增长函数所限制。
定义3:增长函数
的增长函数被定义为:
对样本集进行标记(对分(dichotomy)),增长函数的本质就是假设集中能够将样本集的所有标记(对分或划分)可能结果的最大值的那个假设函数,也就是寻找能够将样本集划分得最彻底的假设函数。区别于Rademacher复杂度,这种度量假设集丰富度的方法不依赖于样本的分布。
个样本,如果一个假设的增长函数值大于的,说明的拟合能力更强,比较差,有一些对分无法实现。
例如二分类情况,假设假设集是所有直线,
- ,对分2种情况:。
- ,对分4种情况:。
- ,对分为6种或8种情况:(3点共线无法分开)。但根据增长函数,,增长函数不依赖于分布,只和样本数量有关。
下面使用Massart引理将增长函数和Rademacher复杂度联系起来。
首先介绍Hoeffding引理:
Hoeffding引理:是任意随机变量且,对任意,以下不等式成立:
Massart引理:令是一个有限的集合,记,那么以下不等式成立:
其中,为取值为的独立均匀随机变量, 为向量的各个成分。
证明:对任意,使用Jensen不等式可得:
再根据的独立性,应用Hoeffding引理可得:
等式两边取对数并除以:
如果选择,最小化上界可得:
两边同时除以,证明完毕。
使用上述证明结果,我们就能够根据增长函数来约束Rademacher复杂度。
推论1:是取值为一族函数。下述不等式成立:
证明: 对一个固定样本,定义为:
由于取值,所以,使用Massart引理可得:
根据定义,,所以:
推论2:增长函数的泛化边界:是取值的一族函数。对任意,至少概率,对任意,
此外,增长函数也可以不用首先通过Rademacher复杂度来界定,即:
计算增长函数有时候是困难的,下面介绍易于计算的另外一种度量假设集复杂度的方法。
3、VC维(Vapnik-Chervonenkis dimension)
在介绍VC维时,先了解两个概念,一个是前面在介绍增长函数时已经讲过的“对分(二分)”(dichotomy),还有一个是打散(shattering)。
和一个假设,用对中的点进行分类称为对分。对于一个假设集,可以产生多种不同的对分,这些对分构成了假设集在样本上的对分集合。
可以被假设集“打散”当且仅当用这个假设集中的假设可以实现对样本的所有可能的“对分”,即。
定义4:VC-维: 假设集的VC-维是能够被打散的最大样本集的大小:
如果,说明:
- 存在一个样本集大小是的样本集能够被假设集打散(并不是说所有样本大小为的样本都能够被打散)。
- 不存在一个样本大小为的样本能够被打散(即所有样本大小为的样本都不能被打散)。
推论:是假设集并且,对所有,
推论:VC维的泛化边界:是一族取值为的函数族,VC维是,对所有,至少以的概率,对于所有的:
也可以表示为:
则综合上面的推导,可以得到维的高概率边界为:
对数因子在这些界限中只起很小的作用。实际上,可以使用更精细的分析来消除这个因素。
维的概念暂时写这么多,下篇更新《机器学习之支持向量机(SVM)》,to be continued…