目录1、连续和离散型特征的的构建 2、CART回归 2.1 构建树 2.2 剪枝 3、模型 4、实例:回归与标准回归的比较正文本系列文章为《机器学习实战》学习笔记,内容整理自书本,网络以及自己的理解,如有错误欢迎指正。回到顶部 1、连续和离散型特征的的构建 决策算法主要是不断将数据切分成小数据集,直到所有目标变量完全相同,或者数据不能再切分为止。它是一种贪心算法,并不考虑能
转载 2024-05-22 22:49:57
59阅读
阅读目录前言回归回归的优化工作 - 剪枝模型回归 / 模型的使用小结 前言       前文讨论的回归算法都是全局且针对线性问题的回归,即使是其中的局部加权线性回归法,也有其弊端(具体请参考前文)       采用全局模型会导致模型非常的臃肿,因为需要计算所有
转载 2024-07-30 10:53:17
94阅读
  大家都知道,决策能够做分类问题,但是到了CART(classsiification and regression tree)算法发明的时候,又能做分类也能做回归。1.原理描述s_i(i\in(1,n))个取值,那我们遍历所有特征,尝试该特征所有取值,对空间进行划分,直到取到特征j的取值s,使得损失函数最小(回归的损失函数用平方差),这样就得到了一个划分点。公式如图:
Gradient Boosting Decision Tree (1)GBDT是一个回归模型,不是分类,这点需要明确     GBDT是回归模型,回归是用来预测值的,当然也可以做分类,而分类如C4.5,ID3这些只能得到类别,并没有具体值(2)GBDT模型由多颗组成,这与Boosting和Bagging的概念并不同  &nbs
转载 2023-09-15 14:28:33
162阅读
回归回归的数据呈现非线性时,就需要使用回归回归的基本逻辑获得最好的切分特征和切分特征值  遍历所有特征    针对某一特征,遍历该特征的所有值    针对某一特征值,进行划分数据,计算出划分数据之后的总方差,    若总方差最小,记下特征和特征值    当遍历完所有特征后,就能够获得最小方差的特征和特征值,并以此作为的结点,划分左右子树,若没有特征,就返回特征值左子树为大于等于特征值的
转载 2024-03-28 16:55:31
88阅读
1 CART,又名分类回归CART,分类回归,是几乎所有复杂决策算法的基础,有以下特点:(1)CART是一棵二叉; (2)CART既能是分类,又能是回归,由目标任务决定; (3)当CART是分类时,采用GINI值作为结点分裂的依据;当CART是回归时,采用MSE(均方误差)作为结点分裂的依据;2 分类回归的区别?针对分类任务,就是分类;针对回归任务,就是回归。分类任务:预
转载 2024-03-26 11:08:30
62阅读
决策(Disicion tree) A decision tree is a flowchart-like structure in which each internal node represents a "test" on an attribute (e.g. whether a coin flip comes up heads or tails), each bran
转载 2024-03-01 15:12:05
60阅读
引言在我前面一篇博客预测数值型数据:回归一文中提到了线性回归包含了一些强大的方法,但除了加权线性回归,其余线性回归方法创建的模型需要拟合所有的数据样本即构建一个全局的模型,但实际应用场景下,很多问题是非线性的,特征不仅多而且趋于复杂,不可能用全局线性模型来拟合任何数据。 那么我们该如何解决这个问题呢?有人提出了将数据集切分成很多很多份易于建模的数据,然后利用前面提到的线性回归技术来建模。
原创 2023-03-07 12:43:22
92阅读
# Python回归模型实现指南 ## 引言 在机器学习领域中,回归模型是一种有效的预测模型。它通过构建决策来进行预测,可以用于解决回归问题。本文将指导你如何使用Python来实现回归模型。 ## 整体流程 下面是实现回归模型的整体流程: | 步骤 | 描述 | | ---- | ---- | | 1. 数据准备 | 收集并准备用于训练和测试的数据 | | 2. 特征选择 |
原创 2023-11-25 11:50:49
38阅读
第4部分:统计学仅作为学习记录作为参考统计学 - 总共分为16部分:1、描述统计学 - 第一部分(选修)2、描述统计学 - 第二部分(选修)3、录取案例分析4、概率5、二项分布6、条件概率7、贝叶斯规则8、Python概率练习9、正态分布理论10、抽样分布与中心及限定理11、置信区间12、假设检验13、案例研究:A/B测试14、回归15、多元线性回归16、逻辑回归项目:A/B测试项目一、描述统计学
1.分类 以C4.5分类为例,C4.5分类在每次分枝时,是穷举每一个feature的每一个阈值,找到使得按照feature<=阈值,和feature>阈值分成的两个分枝的熵最大的阈值(熵最大的概念可理解成尽可能每个分枝的男女比例都远离1:1),按照该标准分枝得到两个新节点,用同样方法继续分枝直到所有人都被分入性别唯一的叶子节点,或达到预设的终止条件,若最终叶子节点中的性别不唯一,
转载 2024-06-19 06:52:01
33阅读
前几天我们介绍了线性回归模型的原理,今天我们主要来看如何用Python代码将线性回归写出来。首先,打开我们的jupyter notebook,把常用的一些包都加载上吧: import numpy as np import pandas as pd 然后,加载我们的线性回归模型: from sklearn.linear_model import LinearRegression
回归理论与波士顿房价案例一、回归理论(1)回归(2)回归的建立(3)基于回归的预测(4)剪枝二、K 近邻(回归)具体案例操作参考文献 一、回归理论(1)回归当数据拥有众多特征并且特征之间关系复杂时,构建全局模型变得困难而笨拙,并且很多实际问题都是非线性的,不可能使用全局线性模型来拟合任何数据。一种可行的方法是将数据集切分成很多份易建模的数据,然后利用线性回归技术来建模和拟合。如果首
分类回归(CART,Classification And Regression Tree)也属于一种决策,上回文我们介绍了基于ID3算法的决策。作为上篇,这里只介绍CART是怎样用于分类的。 分类回归是一棵二叉,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。 表1 名称 体温 表面覆盖 胎生 产蛋 能飞 水生 有腿 冬眠 类标记 人 恒温 毛发 是 否
 1.bootstrap   在原始数据的范围内作有放回的再抽样M个, 样本容量仍为n,原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。于是可得到参数θ的一个估计值θ^(b),这样重复若干次,记为B 。为了可以避免一些误差点对少量的决策影响。   2.决策 :    信息熵: Ent(D
CART 算法,英文全称叫做 Classification And Regression Tree,中文叫做分类回归。ID3 和 C4.5 算法可以生成二叉或多叉,而 CART 只支持二叉。同时 CART 决策比较特殊,既可以作分类,又可以作回归。什么是分类,什么是回归呢?1.分类可以处理离散数据,也就是数据种类有限的数据,它输出的是样本的类别,而回归可以对连续型的数值进行预
转载 2024-04-15 13:57:14
104阅读
目录 回归理论解释算法流程ID3 和 C4.5 能不能用来回归回归示例References 说到决策(Decision tree),我们很自然会想到用其做分类,每个叶子代表有限类别中的一个。但是对于决策解决回归问题,一直是一知半解,很多时候都是一带而过。对于一个回归问题,我们第一时间想到的可能就是线性回归(linear regression),当线性回归不好的时候,可能想着用 SV
转载 2024-05-05 22:30:30
83阅读
   上一章介绍的线性回归,创建的模型需要拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的就非常困难,且实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。 那么有一种方法,将数据集切分成很多份容易建模的数据,然后利用线性回归技术来建模,如果切分后仍然难以模拟线性模型就继续切分。这种切分方式,树结构和回归的结合。    本章介绍
CART(classification and regression trees)回归优点:可对复杂和非线性的数据建模;缺点:结果不易理解;适用于:数值型和标称型。构建树函数createTree()的伪代码:选择最好的划分方式(得到最佳划分的特征与阈值):用于回归和模型 如果该节点不能再分,将该节点存为叶节点 执行二元划分 在右子树调用createTree()函数 在左子树调用createT
概要本部分介绍 CART,是一种非常重要的机器学习算法。  基本原理  CART 全称为 Classification And Regression Trees,即分类回归。顾名思义,该算法既可以用于分类还可以用于回归。克服了 ID3 算法只能处理离散型数据的缺点,CART 可以使用二元切分来处理连续型变量。二元切分法,即每次把数据集切分成两份,具体地处理方法是:如果特征值大
转载 2024-04-23 15:25:15
53阅读
  • 1
  • 2
  • 3
  • 4
  • 5