• 1.1引言
      • 机器学习所研究的主要内容
        • 关于在计算机上从数据中产生“模型”(学习器)的算法,即“学习算法”
      • 机器学习是研究关于“学习算法”的学问
    • 1.2基本术语
      • 学得模型前
        • 数据集(data set)
          • 一组记录的集合
        • 示例(instance)/样本(sample)
          • 数据集中每条关于一个事件或对象的描述的记录
        • 属性(attribute)/特征(feature)
          • 反映事件或对象在某方面的表现和性质的事项。例如:西瓜的色泽
        • 属性值(attribute value)
          • 属性的取值称为属性值。例如:西瓜的色泽=‘乌黑’
        • 属性空间(attribute space)/样本空间(sample space)/输入空间
          • 属性张成的空间。例如:西瓜的色泽、根蒂、敲声张成的三维空间,每个西瓜都可以在该三维空间找到自己的位置
        • 坐标向量/特征向量(feature vector)
          • 在属性空间里面,每个点对应一个坐标向量,因此每一个示例都称为一个坐标向量
        • 维数
          • 每个示例可以由多个属性描述这个示例,属性的数目一般用d表示,则d称为样本的“维数”
      • 学得模型中
        • 学习(learning)/训练(training)
          • 从数据中学得模型的过程
        • 训练数据(training date)
          • 训练过程中使用的数据
        • 训练样本(training sample)
          • 训练数据中的每个样本
        • 训练集(training set)
          • 训练样本的集合
        • 标记(label)
          • 关于示例结果的信息
        • 样例(example)
          • 拥有标记信息的示例
        • 标记空间(label space)/输出空间
          • 所有标记的集合,不是样例的集合
        • "二分类"任务,通常其中一个类为正类(positive class),另一个类为反类(negative class);
        • 涉及多个类别时,则称为多分类任务
      • 学得模型后
        • 测试(testing)
          • 学得模型后,使用其进行预测的过程。注意和学习/训练分开,被测试的样本称为“测试样本”
        • 回归
          • 预测的值是连续值。例如:西瓜的成熟度,0.95、0.37等等
        • 分类
          • 预测的值是离散值。例如:只有好瓜坏瓜(不是连续的值)
        • 聚类(clustering)
          • 将训练集中的西瓜分为若干组,每组称为一个簇
        • 学习任务
          • 我们可以根据训练数据是否拥有标记信息来分为监督学习(supervised learning)和无监督学习(unsupervised learning)
          • 分类和回归常用于监督学习,聚类常用于无监督学习
        • 泛化
          • 学得模型适用于新样本的能力
    • 1.3假设空间
      • 归纳
        • 从特殊到一般的泛化过程,即从具体的事实归结除一般性规律
      • 演绎
        • 从一般到特殊的特化过程,即从基础原理推演出具体状况
    • 1.4归纳偏好
      • 尽可能特殊
        • 意义就是适用的情形尽可能少
      • 尽可能一般
        • 意义就是适用的情形尽可能多
      • 归纳偏好/偏好
        • 机器学习算法在学习过程中国对某种类型假设的偏好
        • 任何一个有效的机器学习算法必有归纳偏好
      • 奥卡姆剃刀
        • 是一般性的原则,用来引导算法确立“正确的”偏好
        • 一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观测一样,则选最简单的那个”
      • 在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否取得较好的性能
    •