文章目录

  • 1. 绪论:初识机器学习
  • 1.1 欢迎参加课程
  • 什么是机器学习?
  • 机器学习能做什么?
  • 1.2 机器学习是什么
  • 第一个机器学习的定义
  • 另一个定义
  • 1.3 监督学习(Supervised Learning)
  • 回归问题举例
  • 分类问题举例
  • 1.4 无(/非)监督学习(Unsupervised Learning)


1. 绪论:初识机器学习

1.1 欢迎参加课程

什么是机器学习?

让机器试着模仿人的大脑,自己学习怎么来解决问题。(非正式定义)

机器学习能做什么?
  • 谷歌、微软(必应)使用学习算法计算网页排名。
  • Facebook、苹果图片分类程序,识别用户朋友照片。
  • 垃圾邮件过滤。
  • 用于数据挖掘,例如:收集web点击流数据,使用机器学习算法分析数据,了解用户,优化用户体验。
  • 医疗:分析电子医疗记录,将医疗记录变成医学知识,更好地理解疾病。
  • 计算生物学:生物学家收集大量基因数据序列、DNA序列等,更好地了解人类基因组。
  • 工程:使用机器学习算法理解所有工程领域越来越大的数据集。
  • 机械:自动驾驶无人直升机
  • 手写识别:寄信的过程,机器学习算法自动识别信封,选择路径,降低大量人工成本。
  • 定制建议(自动推送):亚马逊、Netflix或iTunes Genius为百万用户自动推送定制的产品、电影或音乐的建议。

1.2 机器学习是什么

第一个机器学习的定义

在进行特定编程的情况下,给予计算机学习能力的领域。(from Arthur Samuel,他在50年代编写了一个西洋棋程序)
原文:Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.

另一个定义

一个好的学习问题定义如下,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。(from Tom Mitchell,卡内基梅隆大学 )
原文:Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

1.3 监督学习(Supervised Learning)

基本思想是,数据集中的每个样本都有相应的“正确答案”,再根据这些样本做出预测。

回归问题举例

使用已知的“房屋面积-房价”样本数据集进行学习,根据待售房子的房屋面积推测出对应的房价。房价可以看作是连续值,这类问题叫回归问题。

吴恩达机器学习教材 吴恩达机器学课程笔记_笔记

分类问题举例

使用肿瘤样本数据集进行学习,根据患者年龄、肿瘤尺寸等信息推测肿瘤类型属于良性、恶性或其他。

吴恩达机器学习教材 吴恩达机器学课程笔记_吴恩达_02


吴恩达机器学习教材 吴恩达机器学课程笔记_机器学习_03

如果存在无限多个特征,可以使用支持向量机算法(后面讲)让计算机处理无限多个特征。

1.4 无(/非)监督学习(Unsupervised Learning)

假设数据集中没有任何标签或者有相同的标签,我们对数据集一无所知。非监督学习算法可能会把这些数据集分成两个不同的簇。所以叫聚类算法

聚类应用例子:

  • 谷歌新闻对互联网上爬取到的新闻进行分组。
  • 基因学中对DNA数据聚类。
  • 吴恩达机器学习教材 吴恩达机器学课程笔记_吴恩达_04

  • Facebook、google+自动对朋友分组。
  • 对数据库中的消费者信息进行市场分割,有效的对不同的细分市场一起进行销售。
  • 用于天文数据分析,得出令人惊讶、有趣、有用的理论,解释了星系是如何诞生的。
  • 鸡尾酒会问题:对鸡尾酒会中不同人说话的声音进行分离。
  • 吴恩达机器学习教材 吴恩达机器学课程笔记_吴恩达_05