**************************************
注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的《机器学习》课程笔记。博主深感学过课程后,不进行总结非常easy遗忘,依据课程加上自己对不明确问题的补充遂有此系列博客。本系列博客包含线性回归、逻辑回归、神经网络、机器学习的应用和系统设计、支持向量机、聚类、将维、异常检測、推荐系统及大规模机器学习等内容。
**************************************
多变量线性回归
多维特征
眼下为止,我们探讨了单变量(特征)的回归模型,如今我们对房价模型添加很多其它的特征,如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x ,x ,...,x )。
多变量梯度下降
与单变量线性回归类似,在多变量线性回归中,我们也构建一个代价函数,则这个代价函数是全部建模误差的平方和。即:
当中:
我们的目标和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列參数。 多变量线性回归的批量梯度下降算法为:
左边为单变量学习方法,右边为多变量学习方法。
梯度下降法实践
1 特征缩放
在我们面对多维特征问题的时候,我们要保证这些特征都具有相近的尺度。这将帮助梯度下降算法更快地收敛。
以房价问题为例,如果我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0-2000平方英尺,而房间数量的值则是0-5,以两个參数分别为横纵坐标,绘制代价函数的等高线图能,看出图像会显得非常扁,梯度下降算法须要非常多次的迭代才干收敛。
解决办法是尝试将全部特征的尺度都尽量缩放到-1 到1之间。如图:
最简单的方法是令:
2 学习率
梯度下降算法收敛所须要的迭代次数依据模型的不同而不同,我们不能提前预知。我们能够绘制迭代次数和代价函数的图表来观測算法在何时趋于收敛。
梯度下降算法的每次迭代受到学习率的影响,假设学习率 α过小,则达到收敛所需的迭代次数会很高。假设学习率α 过大,每次迭代可能不会减小代价函数。可能会越过局部最小值导致无法收敛。
通常能够考虑尝试些学习率:α=0.01,0.03,0.1,0.3,1,3,10
特征和多项式回归
如房价预測问题:
线性回归并不适用于全部数据,有时我们须要曲线来适应我们的数据,通常我们须要先观察数据然后再决定准备尝试如何的模型。
另外,我们能够将模型转化为线性回归模型。
例如以下图 x->size:
注:假设我们採用多项式回归模型,在执行梯度下降算法前,特征缩放很有必要。
正规方程
到眼下为止。我们都在使用梯度下降算法,可是对于某些线性回归问题,正规方程方法是更好的解决方式,它能够直接解出參数。如:
如果我们的训练集特征矩阵为X(包括了 x0=1)而且我们的训练集结果为向量 y。则利用正规方程解出向量:
下面表示数据为例:
则依据公式:
能够得到所需參数。
梯度下降与正规方程的比較:
******************
作者:hao_09
时间:2015/8/9
文章地址:
******************
转载于:
**************************************
注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的《机器学习》课程笔记。博主深感学过课程后,不进行总结非常easy遗忘,依据课程加上自己对不明确问题的补充遂有此系列博客。本系列博客包含线性回归、逻辑回归、神经网络、机器学习的应用和系统设计、支持向量机、聚类、将维、异常检測、推荐系统及大规模机器学习等内容。
**************************************
多变量线性回归
多维特征
眼下为止,我们探讨了单变量(特征)的回归模型,如今我们对房价模型添加很多其它的特征,如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x ,x ,...,x )。
多变量梯度下降
与单变量线性回归类似,在多变量线性回归中,我们也构建一个代价函数,则这个代价函数是全部建模误差的平方和。即:
当中:
我们的目标和单变量线性回归问题中一样,是要找出使得代价函数最小的一系列參数。 多变量线性回归的批量梯度下降算法为:
左边为单变量学习方法,右边为多变量学习方法。
梯度下降法实践
1 特征缩放
在我们面对多维特征问题的时候,我们要保证这些特征都具有相近的尺度。这将帮助梯度下降算法更快地收敛。
以房价问题为例,如果我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0-2000平方英尺,而房间数量的值则是0-5,以两个參数分别为横纵坐标,绘制代价函数的等高线图能,看出图像会显得非常扁,梯度下降算法须要非常多次的迭代才干收敛。
解决办法是尝试将全部特征的尺度都尽量缩放到-1 到1之间。如图:
最简单的方法是令:
2 学习率
梯度下降算法收敛所须要的迭代次数依据模型的不同而不同,我们不能提前预知。我们能够绘制迭代次数和代价函数的图表来观測算法在何时趋于收敛。
梯度下降算法的每次迭代受到学习率的影响,假设学习率 α过小,则达到收敛所需的迭代次数会很高。假设学习率α 过大,每次迭代可能不会减小代价函数。可能会越过局部最小值导致无法收敛。
通常能够考虑尝试些学习率:α=0.01,0.03,0.1,0.3,1,3,10
特征和多项式回归
如房价预測问题:
线性回归并不适用于全部数据,有时我们须要曲线来适应我们的数据,通常我们须要先观察数据然后再决定准备尝试如何的模型。
另外,我们能够将模型转化为线性回归模型。
例如以下图 x->size:
注:假设我们採用多项式回归模型,在执行梯度下降算法前,特征缩放很有必要。
正规方程
到眼下为止。我们都在使用梯度下降算法,可是对于某些线性回归问题,正规方程方法是更好的解决方式,它能够直接解出參数。如:
如果我们的训练集特征矩阵为X(包括了 x0=1)而且我们的训练集结果为向量 y。则利用正规方程解出向量:
下面表示数据为例:
则依据公式:
能够得到所需參数。
梯度下降与正规方程的比較:
******************
作者:hao_09