【统计学习方法】统计学习方法概论（2）

转载

mob60475703a599 2012-12-19 22:34:00

一、模型评估和模型选择

1、训练误差与测试误差

2、过拟合和模型选择

经验风险最小化会出现过拟合问题。

二、正则化与交叉验证

1、正则化

模型选择的典型方法是正则化。

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项。

正则化符合奥卡姆剃刀原理。

2、交叉验证

另一种常用的模型选择方法是交叉验证cross validation

随机将数据集切分成三部分：训练集，验证集，测试集。

验证集用于多模型的选择。

交叉验证的基本想法是重复地使用数据，吧给定的数据切分，将切分的数据集合为训练集与测试集，反复训练，测试，模型选择。

（1）简单交叉验证

（2）S折交叉验证

（3）留一交叉验证

三、泛化能力

四、生成模型与判别模型

1、生成模型：生成反复由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。

典型的有：朴素贝叶斯法、隐马尔可夫模型

2、判别模型：判别方法由数据直接学习决策函数f(X)或者条件概率分布P(X|Y)作为预测的模型，即判别模型。

典型的有：k近邻法，感知机，决策树，逻辑斯蒂回归模型，最大熵模型，支持向量机，提升方法，条件随机场等。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客