袋装(Bagging)基本思想对原训练数据集采用随机有放回抽样的方法选择子数据集从而构造组合分类器。给定含有n个样本的数据集合D, 袋装在构造指定的T个基础模型(以基分类器为例)的基本过程:对D进行采样,得到若干个大小相同子数据集Di(i=1,2, …, T),Di中可能包含重复样本(因为对每个Di采用的是有放回抽样得到的);分别在每个样本集合Di上训练一个模型;T个基分类器分别预测,用投票法输出
朴素贝叶斯分类问题引入设一个数据集为D={(X1, Y1), (X2, Y2), …, (Xn, Yn)},其中样本Xi的可由m个特征表示,即Xi=(Xi1, Xi2, …, Xim)(一般要离散特征,对于连续特征的情况见后续的注意事项);而Yi为样本标签,Yi∈{C1,C2, …, Ck},i=1,2, …, n.现有一个新样本X# = (X#1, X#2, …, X#m),在给定的数据集D的基
决策树算法总结算法思想给定一个样本集合D,其中每个样本由若干个属性表示,决策树通过贪心策略(如 ID3 / C4.5 / CART)不断挑选最优的属性,将每个样本划分到不同的子树,再在各棵子树上通过递归对子树上的样本进行划分,直到满足一定的终止条件为止。 决策树的每个叶节点对应一个分类,非叶节点对应某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干子集。算法基本框架(伪代码)输入:训练集
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号