本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片
机器学习 | Coursera吴恩达机器学习系列课程_bilibili
目录
- 1 介绍
- 1-3 监督学习
- 1-4 无监督学习
- 2 单变量线性回归
- 2-2 代价函数
- 2-5 Batch 梯度下降算法
1 介绍
1-3 监督学习
- 包括线性回归和逻辑回归
1-4 无监督学习
- 无监督学习不需要给数据打上标签,也就是不需要人告诉机器一部分正确答案是什么
2 单变量线性回归
2-2 代价函数
- Hypothesis即假定函数,是线性回归时机器推测出来的对已经给定的一堆离散点进行拟合之后的函数
- θ0和θ1是待求的参数,求出这两个参数后,就能得出一条直线进行拟合
- Cost Function即代价函数,是对数据集中每个点与假定函数进行作差再平方再相加后求得的平均值再乘得到的,乘只是为了之后求导方便,式中m为数据集中数据个数共有m个,指的是数据集第i行的x的值,指的是数据集第i行的y的值,y即为需要通过机器学习推测的值
- 目标是求代价函数的最小值(并求出此时θ0和θ1的值),因为在代价函数的值最小时,假定函数距离各离散点的距离最近
由于有两个参数θ0和θ1,所以得出的代价函数图形是一个如上图所示的3D曲面图
3D曲面图也可以用上图的等高线图表示
2-5 Batch 梯度下降算法
梯度下降算法用于如上图的函数:在图上取一个点,向四周寻找最快的下山方向,并迈出一步,重复执行上述步骤,就可以找到代价函数的最小值(上图仅用于解释梯度下降算法,线性回归的代价函数永远是一个凸函数,只会存在一个全局最优解,不会像上图一样出现局部最优解和全局最优解)
在这里:=
是赋值符号,=
是两边等价的意思
如上图,θ0和θ1需要同步更新来实现梯度下降,α是学习率,α越大,相当于下山的步子越大,下山就越快
如上图,θ1从右侧较大时开始逐渐向左侧递减,α是常数不改变,代价函数的导数项(这个导数项其实是偏导数)会随着代价函数逐渐降低而变小(因为斜率变小了),在到达最小值时,导数会变为0
将梯度下降式子里的导数项求出后得到上面的式子