本博客介绍吴恩达机器学习课程的所有知识,学习笔记系列写自己的听课笔记和心得,课程练习系列写课后练习题的作业答案,附上参考的大哥的博客地址。
吴恩达老师的课程可以在B站上看到,讲的很好,推荐大家都去看一下。
本系列所有照片均来自于吴恩达老师讲课课件,侵删。
总述:本篇讲述第一章:引言和第二章:单变量线性回归。引言中重点理解监督学习和无监督学习的概念和二者区别,单变量线性回归中理解线性回归,代价函数,梯度下降等概念,进一步理解机器学习流程和原理。
目录:
第一章:引言
1.1 机器学习是什么
1.2 监督学习
1.3 无监督学习
第二章:单变量线性回归
2.1 模型表示
2.2 代价函数
2.3 梯度下降
2.4 线性回归中的梯度下降
第一章:引言
1.1 机器学习是什么
机器学习是什么?来听这个课的想必都知道吧,建议可以跳过不听。
不过说一下我对它的理解,就是利用计算机做计算量很大的工作,显然这些工作人是做不了的,这里机器学习实际上说的是机器学习算法。
机器学习算法的过程都是,对于一个待解决的问题,提取它的特征(特征可以有很多个),根据这些特征区分不同的数据的结构或者性质或者所属类别,结合包含大量数据的数据集进行训练,这就找到了数据之间的规律,从而进行分类或者预测之类的工作。
传统的机器学习算法比如线性回归LR,支持向量机SVM,随机森林RF等,它们的特点都是:特征是提前定好的,有推理逻辑和溯源性,可解释,但这样也导致了其特征是有限的,对于比较难的样本的特征无法提取,达不到一个好的效果。新兴的机器学习算法即深度学习,其算法自己提取特征,也就是深度特征,提取特征更有区分性和代表性,进而导致分类器效果更好,但不可解释,无法溯源。
好扯远了,本节完毕。
1.2 监督学习
(1)监督学习就是样本集中的样本有label的学习算法。
——比如识别图片,识别一张图片是猫还是狗,训练集中的样本都是有label的,0表示是猫,1表示是狗,0和1就是每张照片的label,实际上就是分类问题。
(2)监督学习主要包含两类:回归问题和分类问题。
预测连续值的输出(如不同面积房屋对应的价格)
预测离散值的输出(分类肿瘤良性/恶性)
1.3 无监督学习
(1)无监督学习就是样本集的样本没有label的学习。
——没有样本意味着自动找出样本的结构属性,将其分成不同的类别(簇),最终实现想要的功能(实质上就是聚类)。
(2)无监督学习包含两类:聚类算法和鸡尾酒会算法。
将数据集分成n个不同的簇,同一个簇的样本属性或结构相似,不同簇的反之。(如谷歌新闻分类,社交软件好友聚类问题,星系形成理论,市场组分)
——鸡尾酒会算法:分离音频(只有个分离音频,俺也不是很懂,但分离音频确实很常用)
总结:
本章首先介绍了机器学习概述,阐述了传统机器学习和新型机器学习算法的区别。其次介绍了监督学习和非监督学习的区别,即有无label,以及两类监督学习的问题,即回归问题和分类问题,两类非监督学习的代表问题,即聚类问题和鸡尾酒会算法。
第二章:单变量线性回归
1.1 模型表示
(1)定义:对于一个机器学习算法的训练集,简化输入和输出都只有一个时,x表示特征/输入变量,y表示目标/输出变量,(x, y)表示训练实例,将训练集喂给机器学习算法,算法会输出一个函数表示hypothesis,简称为h,代表一个x到y的函数映射,一种表达形式为:
,此时由于只有一个特征输入,故称为单变量线性回归。
1.2 代价函数
(1)代价函数的定义
对于回归函数:
选择
和
的值来使得
更接近与y,即:
代价函数,也即平方误差代价函数。我们的目标就是使代价函数最小。
(2)对于回归函数,当
为0时,原式只有一个系数,此时自变量为x;对应于代价函数J,此时其只有一个自变量
,此时每一个
对应一个值,画出不同的
以及其对应的值,得到代价函数的图像:
如图,代价函数是一个一元二次图像,最低点就是代价函数的最优值。右边代价函数图像的每一个点代表左边拟合的回归函数的一条拟合曲线。
(3)当回到两个变量
和
时,代价函数变成了二元方程:
此时代价函数图像如下,是一个三维碗装图,即凸图像,最低点就是最优值,