袋装(Bagging)基本思想对原训练数据集采用随机有放回抽样的方法选择子数据集从而构造组合分类器。给定含有n个样本的数据集合D, 袋装在构造指定的T个基础模型(以基分类器为例)的基本过程:对D进行采样,得到若干个大小相同子数据集Di(i=1,2, …, T),Di中可能包含重复样本(因为对每个Di采用的是有放回抽样得到的);分别在每个样本集合Di上训练一个模型;T个基分类器分别预测,用投票法输出
支持向量机算法思想支持向量机(Support Vector Machine, SVM)是一种监督学习算法,可用于线性/非线性数据的分类和回归任务。最大间隔超平面: SVM的基本思想是在特征空间中找到一个最优的超平面(在二维空间中为一条直线,三维空间中为一个平面,以此类推至高维空间),以将不同类别的样本分开,这个超平面被称为最大间隔超平面。支持向量: 支持向量是离超平面最近的样本
朴素贝叶斯分类问题引入设一个数据集为D={(X1, Y1), (X2, Y2), …, (Xn, Yn)},其中样本Xi的可由m个特征表示,即Xi=(Xi1, Xi2, …, Xim)(一般要离散特征,对于连续特征的情况见后续的注意事项);而Yi为样本标签,Yi∈{C1,C2, …, Ck},i=1,2, …, n.现有一个新样本X# = (X#1, X#2, …, X#m),在给定的数据集D的基
决策树算法总结算法思想给定一个样本集合D,其中每个样本由若干个属性表示,决策树通过贪心策略(如 ID3 / C4.5 / CART)不断挑选最优的属性,将每个样本划分到不同的子树,再在各棵子树上通过递归对子树上的样本进行划分,直到满足一定的终止条件为止。 决策树的每个叶节点对应一个分类,非叶节点对应某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干子集。算法基本框架(伪代码)输入:训练集
KNN(K-Nearest Neighbors) 算法思想 基本思想:基于给定的一个训练样本集合D和k值,现有待预测样本x(无标签);在D中找到与x距离最近的k个样本,①若是分类问题,则通过投票法选择这k个样本中出现次数最多的类别作为x的预测标签;②若是回归问题,对这k个样本的标签求平均值,得到x的预测结果。算法三要素:k值,距离,k个近邻的快速检索方法①k值的选取:当k值很小
Numpy实现导入相关模块Sklearn相关函数说明load_breast_cancer函数用于加载乳腺癌数据集。该数据集包含了乳腺癌肿瘤的特征(如半径、纹理、周长等)和对应的标签(良性或恶性)。该函数返回一个类似于字典的对象,其中包含了数据的特征(data)和标签(target),以及关于数据集的描述(DESCR)等信息。train_test_split函数用于将数据集分割为训练集和测试集。核心
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号