正则化

在机器学习学习中往往不知道需要不知道选取的特征个数,假如特征个数选取过少,容易造成欠拟合,特征个数选取过多,则容易造成过拟合。由此为了保证模型能够很好的拟合样本,同时为了不要出现过拟合现象,引入了一个正则项。

机器学习——正则化_拟合

如图所示:

当选用特征过少时,函数的拟合程度如左边的图一样,不能很好的拟合

当选用特征适中时,函数的拟合程度如中间的图一样,可以比较好的拟合

当选用特征过多时,函数的拟合程度如右边的图一样,能够完全拟合样本,但是可能在测试数据上不佳。

当选用均方误差作为损失函数时

Loss function:机器学习——正则化_机器学习_02,当选择模型过于复杂时(即机器学习——正则化_人工智能_03维度过高,机器学习——正则化_正则_04特征过多时)损失函数往往趋近于0甚至等于0,能够很好的拟合样本但是不具有很好的泛化能力,所以为了降低模型的复杂度我们引入了一个正则项机器学习——正则化_拟合_05。即损失函数为机器学习——正则化_机器学习_06。由此最小化损失函数时。会考虑模型的复杂度,保证模型不至于太复杂。

当存在一个样本机器学习——正则化_正则_07机器学习——正则化_正则_08,其中机器学习——正则化_机器学习_09为一个高斯噪声,

当选择模型:机器学习——正则化_正则_10时,模型无法很好的拟合样本

当选择模型:机器学习——正则化_损失函数_11时,模型可以较好的拟合样本

当选择模型:机器学习——正则化_损失函数_12时,模型可以完全拟合样本,当引入正则项机器学习——正则化_拟合_05,可以保证机器学习——正则化_人工智能_03不至于太复杂,由此可以使机器学习——正则化_人工智能_15足够小,不至于使给模型造成太大的影响,所以可以避免模型太过于复杂以至于过拟合。