第一周:
机器学习:监督学习、无监督学习
一、无监督学习:给定的事例数据并没有输出标签y,即给定的数据与输出标签y无关;研究的是在给定的数据集中找到一些结论,某种结构或某种模式或有趣的东西;
不是给答案的,是探索结构或模式的。
||
聚类算法、
1、聚类:决定将数据分配给不同的几个集群,决定了有几个什么样的集群或几个什么样的组;获取没有标签的数据,并将它们自动分配到不同的集群中;将相似的点组合在一起
2、异常检测
3、降维:尽可能的缩小数据集,而更少的减少丢失的数据


二、监督学习:给定了一些事例正确的答案(标签),计算机从正确的答案中进行学习;X->Y(有标签);要求给每个输入提供相对正确的答案
||
预测、分类算法==》
1、预测:从众多有可能的、无限的数据结果中,预测y可能的结果
2、分类:从可能出现的一小部分有限的结果中,得到y可能的结果
*分类–分类模型

*预测–线性回归模型:
~训练集:所有的数据构成的一个表格,每一行对应一组x,y,画在图上代表一个的点。即训练集中的数据构成了这个图中的所有点
然后再根据这些点的分布,利用成本函数构造线性回归模型
我们所求的x和预测得到的y不在该训练集中,因为y本身也不是确切值

~表示方法:
(x,y):一组数据
m:训练集中的某一行
(x^(i) y^(i)):训练集中第i行的数据;i是index,不是幂

~通过训练集,得学习法则==》 f
f就是机器通过训练集中的数据,学习得到的function,然后利用这个function就可以预测每个x对应的y了;即x-> f->y^ (y是预测估计得到的,不是准确值,estimate y)
f=wx+b(由参数w,b决定y)

*成本函数(平方误差成本函数):通过它可使y^ (i)更接近训练集中的每个y(i)

吴恩达机器学习pdf 吴恩达机器学课程笔记_python


通过w,b的改变使得J变得更小,这样得到更适合的w,b,用来构成更准确的f~针对不同组的w,b可得到不同的f函数(二维),和J函数(三维)

三维的J函数,我们可通过画3D立体图或者等高线来表示

3D立体:

吴恩达机器学习pdf 吴恩达机器学课程笔记_python_02

等高线:

吴恩达机器学习pdf 吴恩达机器学课程笔记_人工智能_03


右侧等高线可以看出蓝黄绿三点的w,b虽然不同,得到的f函数自然也不相同,但是对应的J函数的值却相同,即是同一等高线;

吴恩达机器学习pdf 吴恩达机器学课程笔记_人工智能_04


根据3D模型可知,最里面的等高线的中心点即为J的最小值,因此我们要做的就是通过取不同的w,b的值,来无限接近最小值J

||

让计算机自己去自动寻找满足最小值J的w,b 的方法:梯度下降~梯度下降:适用于任何一种函数,用来求函数mini值

因此函数的参数可以有很多个,最小值也不一定就只有一个(如深度神经网络。。。深度学习)

梯度下降只能求得局部最小解。即当给定一个初始值w,b,只能得到有关该种情况的局部最小值,每种局部最小值之间无法互通

如下图所示函数:(不是平方误差成本函数,该函数似碗装,只有一个mini)

吴恩达机器学习pdf 吴恩达机器学课程笔记_python_05


梯度下降算法,实则为根据下面的公式重复、多次、同步、更新参数w,b,直到逼近J的局部最小值,也就是算法收敛–参数w,b不再随着更新而发生很大的变化

吴恩达机器学习pdf 吴恩达机器学课程笔记_python_06


导数:求出斜率,判断梯度下降的方向;>0,w–;<0,w++(往中间的mini值走)

吴恩达机器学习pdf 吴恩达机器学课程笔记_python_07


~即使当尔法固定一个值的时候,最后也会找到J函数的局部最小值。因为随着w的更新变化,斜率会变小,即导数会逐渐变小,直到最后w=w不再变化,此时就为局部最小解了

吴恩达机器学习pdf 吴恩达机器学课程笔记_数据_08


尔法:学习率

用来判断下降多少,当过小时,下降速度会很小,步骤次数会很多,但是最后能找到最小值;

当过大时,可能会离最小值越来越远,最后找不见最小值

吴恩达机器学习pdf 吴恩达机器学课程笔记_数据_09


线性回归模型中利用梯度下降实现成本函数的融合==》

吴恩达机器学习pdf 吴恩达机器学课程笔记_人工智能_10


吴恩达机器学习pdf 吴恩达机器学课程笔记_吴恩达机器学习pdf_11


注意:这种梯度下降是批量梯度下降,也就是当参数w,b每一次改变时,都要查看对应的训练集中的每组数据(xi,yi)