GBDT二分类建模python 多个二分类模型

转载

daleiwang 2024-01-08 15:35:18

文章标签 GBDT二分类建模python sklearn 分类机器学习数据集 文章分类 Python 后端开发

Sklearn中的二分类模型可以进行多分类的原理

二分类扩展到多分类的方法

从sklearn的源码中可以找到sklearn将二分类模型推广到多分类模型的具体做法：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DwAxDETg-1665481227020)(C:\Users\WJT\AppData\Roaming\Typora\typora-user-images\image-20221011153257983.png)]$

即比较常用的：

one-vs-rest（一对多）
one-vs-one（一对一）
error correcting output codes（纠错输出编码，多对多）

其中，Sklearn中默认的方法是one-vs-rest

接下来将逐个介绍这三个方法的原理及优缺点

one-vs-rest

原理

one-vs-rest的原理很好理解，就是对于多类别数据（假设 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_02$ 个类， $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_03$ ），每次将一个类作为正类，其余类作为负类，进行训练，得到一个分类器，这样最后总共能得到 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_02$ 个分类器，在进行预测时：

若只有一个分类器预测为正类，则分类结果即为对应的类别
若出现多个分类器预测为正类，则根据每个分类器的置信度，选择置信度大的类别作为最终预测结果

优缺点

优点

易于理解，方便实行，速度快
只需要训练 $GBDT二分类建模python 多个二分类模型_sklearn_05$ 个分类器

缺点

在进行预测时，可能会出现没有分类器预测为正类的问题。
由于每次训练分类器时，数据是一类对多类，正反两类的数据量偏差过大容易导致数据偏斜问题，影响准确率。

one-vs-one

原理

为了避免one-vs-rest的数据倾斜问题，one-vs-one的策略是每个分类器只负责两个类别的分类，比如对于三分类问题（类A、B、C），其分类器的构造如下：

分类器1负责二分类A、B
分类器2负责二分类A、C
分类器3负责二分类B、C

因此，对于 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_02$ 个类别的分类问题，需要训练 $GBDT二分类建模python 多个二分类模型_数据集_07$ 个分类器，之后，在进行预测时,将预测数据带入每个分类器中，最后通过投票原则，选择预测结果多的类作为最终预测的类别

优缺点

优点

避免了一对多中的数据倾斜问题

缺点

需要训练的分类器以二次速度随类别递增，增加了模型的时间复杂度
预测时会出现多个类别作为正类出现的次数相同的情况

Error correcting output codes(ECOC)

原理

ECOC可以看作是one-vs-one跟one-vs-rest的一般形式，它每次将若干个类作为正类，其余若干个类作为负类，进行训练，因此也叫多对多，为了方便解释，以一个类别数为4的数据集作为例子进行解释：

假设有一个数据集，类别为A、B、C、D，现根据ECOC方法利用二分类模型对其进行分类。

对数据集进行划分，划分的流程是将一部分类别数据划分为正类，其余划分为负类，如图所示：

划分的个数没有明确的限制，例如上图划分了4个数据集，但尽量要避免第四种划分格式，以免遭成数据偏斜。（个人认为）

对于每一个划分的数据集，带入分类器进行训练，得到对应于每一个划分数据集的训练器，以上图数据集划分为例，则能得到4个训练器: $GBDT二分类建模python 多个二分类模型_机器学习_08$ ,其中 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_09$ 对 $GBDT二分类建模python 多个二分类模型_分类_10$ .
对于每一个训练器我们可以得知器对应于A、B、C、D四个类的输出（即+1，-1），因此可以产生一个编码表如下：
现在可以对数据进行预测，选取一个样本 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_11$ ，依次带入分类器 $GBDT二分类建模python 多个二分类模型_机器学习_08$ 中，将每个分类器的输出结果组合，则可以得到一个编码列，为 $GBDT二分类建模python 多个二分类模型_分类_13$ ，而由上图可以看到，类别A对应的编码列为 $GBDT二分类建模python 多个二分类模型_分类_14$ ,B对应的编码列为 $GBDT二分类建模python 多个二分类模型_数据集_15$ ,C对应的编码列为 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_16$ ，D对应的编码列为 $GBDT二分类建模python 多个二分类模型_数据集_17$ .为了判断样本 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_11$ 更匹配哪个类别，分别计算样本 $GBDT二分类建模python 多个二分类模型_GBDT二分类建模python_19$ 的编码列到各个类别的编码列的数据欧氏距离，选择距离最短的作为该样本的预测类别。

笔者关于数据集划分个数问题的思考：
从该流程中可以看出，当划分数据集的个数较少时，样本编码到各个类编码的欧氏距离很容易出现相同，导致无法分类，因此，划分的数据集的个数要适量多，由于随着划分数据集的个数变多，最后无法避免划分出正负两类数据量偏差过大的问题，影响预测的准确性，总之，划分数据集的个数不能太少，也不能太多，需要根据实际情况权衡。

优缺点

优点

纠错能力强，准确率高。

缺点

时间复杂度高，需要训练大量分类器以达到效果。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：javadbf 写入 java写jdbc

下一篇：python微信自动预约场地 python 微信小程序自动化

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯