-
1.1引言
-
机器学习所研究的主要内容
- 关于在计算机上从数据中产生“模型”(学习器)的算法,即“学习算法”
- 关于在计算机上从数据中产生“模型”(学习器)的算法,即“学习算法”
- 机器学习是研究关于“学习算法”的学问
-
机器学习所研究的主要内容
-
1.2基本术语
-
学得模型前
-
数据集(data set)
- 一组记录的集合
- 一组记录的集合
-
示例(instance)/样本(sample)
- 数据集中每条关于一个事件或对象的描述的记录
- 数据集中每条关于一个事件或对象的描述的记录
-
属性(attribute)/特征(feature)
- 反映事件或对象在某方面的表现和性质的事项。例如:西瓜的色泽
- 反映事件或对象在某方面的表现和性质的事项。例如:西瓜的色泽
-
属性值(attribute value)
- 属性的取值称为属性值。例如:西瓜的色泽=‘乌黑’
- 属性的取值称为属性值。例如:西瓜的色泽=‘乌黑’
-
属性空间(attribute space)/样本空间(sample space)/输入空间
- 属性张成的空间。例如:西瓜的色泽、根蒂、敲声张成的三维空间,每个西瓜都可以在该三维空间找到自己的位置
- 属性张成的空间。例如:西瓜的色泽、根蒂、敲声张成的三维空间,每个西瓜都可以在该三维空间找到自己的位置
-
坐标向量/特征向量(feature vector)
- 在属性空间里面,每个点对应一个坐标向量,因此每一个示例都称为一个坐标向量
- 在属性空间里面,每个点对应一个坐标向量,因此每一个示例都称为一个坐标向量
-
维数
- 每个示例可以由多个属性描述这个示例,属性的数目一般用d表示,则d称为样本的“维数”
- 每个示例可以由多个属性描述这个示例,属性的数目一般用d表示,则d称为样本的“维数”
-
数据集(data set)
-
学得模型中
-
学习(learning)/训练(training)
- 从数据中学得模型的过程
- 从数据中学得模型的过程
-
训练数据(training date)
- 训练过程中使用的数据
- 训练过程中使用的数据
-
训练样本(training sample)
- 训练数据中的每个样本
- 训练数据中的每个样本
-
训练集(training set)
- 训练样本的集合
- 训练样本的集合
-
标记(label)
- 关于示例结果的信息
- 关于示例结果的信息
-
样例(example)
- 拥有标记信息的示例
- 拥有标记信息的示例
-
标记空间(label space)/输出空间
- 所有标记的集合,不是样例的集合
- 所有标记的集合,不是样例的集合
- "二分类"任务,通常其中一个类为正类(positive class),另一个类为反类(negative class);
- 涉及多个类别时,则称为多分类任务
-
学习(learning)/训练(training)
-
学得模型后
-
测试(testing)
- 学得模型后,使用其进行预测的过程。注意和学习/训练分开,被测试的样本称为“测试样本”
- 学得模型后,使用其进行预测的过程。注意和学习/训练分开,被测试的样本称为“测试样本”
-
回归
- 预测的值是连续值。例如:西瓜的成熟度,0.95、0.37等等
- 预测的值是连续值。例如:西瓜的成熟度,0.95、0.37等等
-
分类
- 预测的值是离散值。例如:只有好瓜坏瓜(不是连续的值)
- 预测的值是离散值。例如:只有好瓜坏瓜(不是连续的值)
-
聚类(clustering)
- 将训练集中的西瓜分为若干组,每组称为一个簇
- 将训练集中的西瓜分为若干组,每组称为一个簇
-
学习任务
- 我们可以根据训练数据是否拥有标记信息来分为监督学习(supervised learning)和无监督学习(unsupervised learning)
- 分类和回归常用于监督学习,聚类常用于无监督学习
- 我们可以根据训练数据是否拥有标记信息来分为监督学习(supervised learning)和无监督学习(unsupervised learning)
-
泛化
- 学得模型适用于新样本的能力
- 学得模型适用于新样本的能力
-
测试(testing)
-
学得模型前
-
1.3假设空间
-
归纳
- 从特殊到一般的泛化过程,即从具体的事实归结除一般性规律
- 从特殊到一般的泛化过程,即从具体的事实归结除一般性规律
-
演绎
- 从一般到特殊的特化过程,即从基础原理推演出具体状况
- 从一般到特殊的特化过程,即从基础原理推演出具体状况
-
归纳
-
1.4归纳偏好
-
尽可能特殊
- 意义就是适用的情形尽可能少
- 意义就是适用的情形尽可能少
-
尽可能一般
- 意义就是适用的情形尽可能多
- 意义就是适用的情形尽可能多
-
归纳偏好/偏好
- 机器学习算法在学习过程中国对某种类型假设的偏好
- 任何一个有效的机器学习算法必有归纳偏好
- 机器学习算法在学习过程中国对某种类型假设的偏好
-
奥卡姆剃刀
- 是一般性的原则,用来引导算法确立“正确的”偏好
- 一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观测一样,则选最简单的那个”
- 是一般性的原则,用来引导算法确立“正确的”偏好
- 在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否取得较好的性能
-
尽可能特殊
-
1.1引言
机器学习基本概念1
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
机器学习基本概念
基本概念课程任务机器学习的步骤1. Function with Unknown Parameters2. Define Loss fr
机器学习 人工智能 深度学习 斜率 二维 -
图解机器学习总结——1、基本概念
序言:近期主要帮同事讲解《
机器学习 图解机器学习 数据 线性模型 -
Elasticsearch学习1-基本概念
本篇带大家一起了解下 Elasticsearch 的基本概念
elasticsearch 集群 节点 文档 分片和副本 -
机器学习中常用的基本概念
机器学习中常用的基本概念:过拟合、欠拟合、交叉验证、监督学习等
机器学习 人工智能 监督学习 机器学习常用基本概念 数据 -
图机器学习入门:基本概念介绍
图就是一组相互连接的对象。一个图有一组结点N和边E, n是顶点的数目,m是边的数目。连接的两个节点被定义为相邻(节点1相邻或邻
机器学习 人工智能 神经网络 深度学习 图论