[机器学习笔记] Note1--机器学习简介

原创

lc013 2021-09-04 22:06:46 博主文章分类：机器学习 ©著作权

文章标签 机器学习监督学习数据 sed 数据集 文章分类 机器学习人工智能

©著作权归作者所有：来自51CTO博客作者lc013的原创作品，请联系作者获取转载授权，否则将追究法律责任

阅读本文大约需要 2 分钟

本文结构：

这是学习 Andrew Ng 在 Coursea 上的机器学习课程所做的笔记。

什么是机器学习

对于机器学习，并没有一个一致认同的定义，一个比较古老的定义是由Arthur Samuel在 1959 年给出的：

机器学习研究的是如何赋予计算机在没有被明确编程的情况下仍能够学习的能力。(Field of study that fives computers the ability to learn without being explicily programmed.)

随后他编写了一个跳棋游戏的程序，并且让这个程序和其自身玩了几万局跳棋游戏，并且记录下来棋盘上的什么位置可能会导致怎样的结果，随着时间的推移，计算机学会了棋盘上的哪些位置可能会导致胜利，并且最终战胜了设计程序的 Samuel。

另一个比较现代且形式化的定义是由Tom Mitchell在 1998 年给出的：

对于某个任务T和表现的衡量P，当计算机程序在任务T的表现上，经过P的衡量，随着经验E而增长，我们便称计算机程序能够通过经验E来学习该任务。

在上述的跳棋游戏的例子中，任务 T 是玩跳棋游戏，P 是游戏的输赢，而经验E 则是一局局的游戏。

一些机器学习的应用例子：

数据挖掘
一些无法通过手动编程来编写的应用：如自然语言处理，计算机视觉
一些自助式的程序：如推荐系统
理解人类是如何学习的

监督学习(Supervised Learning)

监督学习是什么呢？

下面我们用一个房价的例子来介绍下监督学习，如下所示:

[机器学习笔记] Note1--机器学习简介_机器学习

即通过给出房子面积和房价的一些数据，来预测一个新的房子面积所能卖出的房价。

所以，监督学习是指给出标记的数据集，并且已知输入和输出的关系，然后计算一个模型，可以对新的输入预测对应的输出结果。

监督学习分为两类问题，分别是回归问题和分类问题。回归问题的输出是一个连续值，比如在预测房价这个例子中，预测房价是一个回归问题，其结果是连续值。而分类问题是得到一个离散值的输出，比如同样是预测房价的例子，如果问题从预测卖出的房价变成卖出的房价是偏高还是偏低，就是属于分类问题，因为其答案可以用 0 或 1 表示高了或者低了。

课程中给出另一个例子说明分类问题，如下图所示：
[机器学习笔记] Note1--机器学习简介_sed_02
问题是假设预测一个乳腺癌是否是恶性的，图中坐标轴横轴表示肿瘤的大小，纵轴表示病人的年龄，以 O 表示良性肿瘤，以X表示恶性肿瘤。所以问题就是判断是良性还是恶性肿瘤，这就是一个分类问题。