@

目录

 


前言

  本人为机器机器学习初学,正在一点一点阅读周志华老师的西瓜书,顺便写点笔记与自己的理解。
  本次笔记主要是在阅读到绪论部分时对训练集外误差公式的理解,如有不正之处,欢迎指出。


提示:以下是本篇文章正文内容,下面理解可供参考

一、基本术语

1.数据集(dataset)

  一组记录的集合。例如:(色泽=青绿;根蒂=稍蜷;敲声=沉闷)。

2.样本(sample)

  数据集中的每条记录,它是关于一个事件或对象的描述。又称示例(instance)。例如:色泽=青绿。

3.属性(attribute)

  反映事件或对象在某方面的表现或性质的事项。又称特征(feature)。例如色泽。

4.属性值(attribute value)

  属性上的取值。例如:青绿。

5.属性空间(attribute space)

  属性张成的空间。又称样本空间(sample space)。例如:把色泽、根蒂、敲声作为三个坐标轴,它们张成的一个描述西瓜的三维空间,每个西瓜都可以在这个空间中找到一个对应的坐标位置,这个点对应一个坐标向量,这个示例又称为一个“特征向量”(feature vector)。

6.学习(learning)/训练(training)

  从数据中学得模型的过程,这个过程是通过执行某个学习算法来完成。

7.训练数据(training data)

  训练过程中使用的数据。

8.训练样本(training sample)

  训练数据中的每个样本。

9.训练集(training set)

  训练样本组成的集合。

10.假设(hypothesis)

  学得模型对应了关于数据的某种潜在的规律。

11.学习器(learner)

  模型又称学习器。

12.标记(label)

  学得一个模型,仅有已有的示例数据是不够的。要建立一个关于“预测”(prediction)的模型,需要获得训练样本的“结果”信息。例如“((色泽=青绿;根蒂=稍蜷;敲声=浊响),好瓜)”。这里关于示例结果的信息“好瓜”,称为标记。

13.样例(example)

  拥有了标记信息的示例。

14.分类(classification)

  欲预测的是离散值。

15.回归(regression)

  欲预测的是连续值。

16.测试(testing)

  学得模型后,使用其进行预测的过程。

17.簇(cluster)

  将训练集中的记录分组,每个组就是一个簇。

18.聚类(clustering)

  将训练集分组的过程。

19.监督学习(supervised learning)

  训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标记之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。代表:分类和回归。

20.无监督学习(unsupervised learning)

  在只有特征没有标记的训练数据集中,通过数据之间的内在联系和相似性将他们分成若干类。代表:聚类。

21.泛化能力(generalization)

  学得模型适用于新样本的能力。

22.独立同分布(independent and identically distributed 简称i.i.d.)

  假设样本空间中全体样本服从一个未知的“分布”D,我们获得的每个样本都是独地从这个分布上采样获得的,即“独立同分布”。

23.归纳偏好(Inductive Bias)

  机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。与特征选择(feature selection)有关。

24.没有免费的午餐定理(No Free Lunch Theorem)

若学习算法La在某些问题上比学习算法Lb要好,那么必然存在另一些问题,在这些问题中Lb比La泛化能力强。

二、训练集之外误差

1.等式解释

  La在训练集之外的所有样本上的误差为:

训练集外误差_数据集
  χ:样本空间。        H:假设空间。
  La、Lb:学习算法。学习算法有其偏好性,对于相同的训练数据,不同的学习算法可以产生不同的假设,学得不同的模型,因此才会有哪个学习算法对于具体问题更好。这里这个没有免费的午餐定理要证明的就是:若对于某些问题算法La学得的模型更好,那么必然又有在另一些问题中,算法Lb学得的模型更好。这里的好坏在下文中使用算法对于所有样本的总误差来表示。
  P(h|X,La): 算法La基于训练数据X产生假设h的概率。既然前面有假设空间这个概念,那么假设h自然不止一个,并且对于整个空间的每一个h,P(h|X,La)的总和等于1。这里的假设是一个映射,是y=h(x),是基于数据X产生的对于学习目标(判断好瓜)的预测。因数据X不一样,所以可能产生不一样的假设h。
  f:希望学得的真实目标函数。这个函数不是唯一的,而是存在一个函数空间,在这个空间中按某个概率分布,下文证明中采用的是均匀分布。
  E是期望expectation,这个下标ote,是off-training error,即训练集外误差。
  Eote(La|X,f): 算法La学得的假设在训练集外的所有样本上的误差的期望。
  P(x): 样本空间中的每个样本的取得概率不同。比如:(色泽=浅白,根蒂=硬挺,敲声=清脆)的西瓜可能比(色泽=浅白,根蒂=稍蜷,敲声=沉闷)的西瓜更多,取到的概率更大。所以有P(x)这个概率。
  Ⅱ(h(x)≠f(x)):指示函数,括号里为真就=1,为假就=0。.

求和符号理解:

  ∑h: 对假设的求和。同一算法对于训练集外(测试集)的不同数据产生的不同的假设,每个假设有不同的概率。

  ∑x∈χ−X:对于样本空间中每一个训练集外的数据都进行右边的训练集外误差_数据_02运算。

2.二分类问题

训练集外误差_泛化_03
  先要说明,对于我们想要求得的真实目标函数f可能也不止一个,这个好理解,因为满足版本空间中的假设的函数都可以是真实目标函数,然后这些不同的f有着相同的概率(均匀分布),函数空间为{0,1},那么有多少个这种函数呢?

  我们来看对于同一个样本的这个预测值,对于样本空间χ中的某个样本x,如果f1(x)=0,f2(x)=1, 那么这就是两个不同的真实目标函数,所以对于某个样本可以区分出两个真实目标函数,一共有|χ|个样本,所以一共有2|χ|个真实目标函数,这些真实目标函数是等可能分布的(均匀分布),所以对于某个假设h(x)如果h(x)=0那么就有1/2的可能与真实目标函数相等。

3.版本空间与假设空间

假设空间:属性所有可能取值组成的可能的样本

版本空间:与已知数据集一致的所有假设的子集集合。
训练集外误差_样本空间_04
(绿色加号代表正类样本,红色小圈代表负类样本)

GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary),;

SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary)

GB与SB之间所围成的区域就是版本空间。

例如:

训练集外误差_数据集_05
假设空间

1 色泽=*,根蒂=*,敲声=*

2 色泽=青绿,根蒂=*,敲声=*

3 色泽=乌黑,根蒂=*,敲声=*

4 色泽=*,根蒂=蜷缩,敲声=*

5 色泽=*,根蒂=硬挺,敲声=*

6 色泽=*,根蒂=稍蜷,敲声=*

7 色泽=*,根蒂=*,敲声=浊响

8 色泽=*,根蒂=*,敲声=清脆

9 色泽=*,根蒂=*,敲声=沉闷

10 色泽=青绿,根蒂=蜷缩,敲声=*

11 色泽=青绿,根蒂=硬挺,敲声=*

12 色泽=青绿,根蒂=稍蜷,敲声=*

13 色泽=乌黑,根蒂=蜷缩,敲声=*

14 色泽=乌黑,根蒂=硬挺,敲声=*

15 色泽=乌黑,根蒂=稍蜷,敲声=*

16 色泽=青绿,根蒂=*,敲声=浊响

17 色泽=青绿,根蒂=*,敲声=清脆

18 色泽=青绿,根蒂=*,敲声=沉闷

19 色泽=乌黑,根蒂=*,敲声=浊响

20 色泽=乌黑,根蒂=*,敲声=清脆

21 色泽=乌黑,根蒂=*,敲声=沉闷

22 色泽=*,根蒂=蜷缩,敲声=浊响

23 色泽=*,根蒂=蜷缩,敲声=清脆

24 色泽=*,根蒂=蜷缩,敲声=沉闷

25 色泽=*,根蒂=硬挺,敲声=浊响

26 色泽=*,根蒂=硬挺,敲声=清脆

27 色泽=*,根蒂=硬挺,敲声=沉闷

28 色泽=*,根蒂=稍蜷,敲声=浊响

29 色泽=*,根蒂=稍蜷,敲声=清脆

30 色泽=*,根蒂=稍蜷,敲声=沉闷

31 色泽=青绿,根蒂=蜷缩,敲声=浊响

32 色泽=青绿,根蒂=蜷缩,敲声=清脆

33 色泽=青绿,根蒂=蜷缩,敲声=沉闷

34 色泽=青绿,根蒂=硬挺,敲声=浊响

35 色泽=青绿,根蒂=硬挺,敲声=清脆

36 色泽=青绿,根蒂=硬挺,敲声=沉闷

37 色泽=青绿,根蒂=稍蜷,敲声=浊响

38 色泽=青绿,根蒂=稍蜷,敲声=清脆

39 色泽=青绿,根蒂=稍蜷,敲声=沉闷

40 色泽=乌黑,根蒂=蜷缩,敲声=浊响

41 色泽=乌黑,根蒂=蜷缩,敲声=清脆

42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷

43 色泽=乌黑,根蒂=硬挺,敲声=浊响

44 色泽=乌黑,根蒂=硬挺,敲声=清脆

45 色泽=乌黑,根蒂=硬挺,敲声=沉闷

46 色泽=乌黑,根蒂=稍蜷,敲声=浊响

47 色泽=乌黑,根蒂=稍蜷,敲声=清脆

48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷

49 Ø

根据总结,按照上述过程进行学习:

(1,(色泽=青绿、根蒂=蜷缩、敲声=浊响),好瓜)

可以删除假设空间中的3、5、6、8、9、11-15、17-21、23-30、32-49

(2,(色泽=乌黑、根蒂=蜷缩、敲声=浊响),好瓜)

可以删除剩余假设空间中的2、10、16、31

(3,(色泽=青绿、根蒂=硬挺、敲声=清脆),坏瓜)

可以删除剩余假设空间中的1

(4,(色泽=乌黑、根蒂=稍蜷、敲声=沉闷),坏瓜)

剩余假设空间中无可删除的假设

学习过后剩余的假设为:

4 色泽=*,根蒂=蜷缩,敲声=*

7 色泽=*,根蒂=*,敲声=浊响

22 色泽=*,根蒂=蜷缩,敲声=浊响

这就是最后的“假设集合”,也就是“版本空间”。

总结

  本文介绍了相关专业术语,以及周志华机器学习中训练集外误差的理解。