决策树随机森林 python运行统计图决策树与随机森林

转载

mob64ca13fb1f2e 2023-12-21 09:37:05

文章标签 决策树算法机器学习随机森林数据集 文章分类 Python 后端开发

决策树与随机森林之间的关系

在此之前需要先熟悉决策树是怎么一回事。

了解之后，再看下面的内容就非常轻松了。

决策树是一种有监督的机器学习算法，该方法可以用于解决分类和回归问题。决策树可以简单地理解为达到某一特定结果的一系列决策。

决策树随机森林 python运行统计图决策树与随机森林_机器学习

随机森林是基于树的机器学习算法，该算法利用了多棵决策树的力量来进行决策。为什么要称其为“随机森林”呢？这是因为它是随机创造的决策树组成的森林。决策树中的每一个节点是特征的一个随机子集，用于计算输出。随机森林将单个决策树的输出整合起来生成最后的输出结果。简单来说：“随机森林算法用多棵（随机生成的）决策树来生成最后的输出结果。”
对于一个测试数据，将它投入到随机森林中的不同决策树中，会得到不同的测试结果。若问题是一个分类问题，则可以通过求众数来得出测试数据的类别；若问题是一个回归问题，则可以通过求平均值得出测试数据的值。

这种结合了多个单一模型的输出（也被称为弱学习）的过程被称为集成学习。
决策树相当于一个大师，通过自己在数据集中学到的知识对于新的数据进行分类。但是俗话说得好，一个诸葛亮，玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠，希望最终的分类效果能够超过单个大师的一种算法。

看完一下内容，就能够具体了解他们之间存在的具体关系。
那随机森林具体如何构建呢？
有两个方面：数据的随机性选取，以及待选特征的随机选取。
1.数据的随机选取：

首先，从原始的数据集中采取有放回的抽样，构造子数据集，子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复，同一个子数据集中的元素也可以重复。第二，利用子数据集来构建子决策树，将这个数据放到每个子决策树中，每个子决策树输出一个结果。最后，如果有了新的数据需要通过随机森林得到分类结果，就可以通过对子决策树的判断结果的投票，得到随机森林的输出结果了。如下图，假设随机森林中有3棵子决策树，2棵子树的分类结果是A类，1棵子树的分类结果是B类，那么随机森林的分类结果就是A类。

决策树随机森林 python运行统计图决策树与随机森林_数据集_02

2.待选特征的随机选取

与数据集的随机选取类似，随机森林中的子树的每一个分裂过程并未用到所有的待选特征，而是从所有的待选特征中随机选取一定的特征，之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同，提升系统的多样性，从而提升分类性能。下图中，蓝色的方块代表所有可以被选择的特征，也就是待选特征。黄色的方块是分裂特征。左边是一棵决策树的特征选取过程，通过在待选特征中选取最优的分裂特征（别忘了前文提到的ID3算法，C4.5算法，CART算法等等），完成分裂。右边是一个随机森林中的子树的特征选取过程。

决策树随机森林 python运行统计图决策树与随机森林_随机森林_03