python下XGBoost实现二分类代码

原创

mob649e8162842c 2024-07-20 11:48:25 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e8162842c的原创作品，请联系作者获取转载授权，否则将追究法律责任

XGBoost在Python中的二分类实现

XGBoost（eXtreme Gradient Boosting）是一种高效的机器学习算法，它通过梯度提升树（Gradient Boosting Trees）的方式构建预测模型。在Python中，我们可以通过xgboost库来实现XGBoost算法。本文将介绍如何在Python中使用XGBoost进行二分类任务。

XGBoost简介

XGBoost是一种基于决策树的集成学习算法，它通过将多个弱预测模型（如决策树）组合起来，形成一个强预测模型。XGBoost在处理大规模数据集时表现出色，因为它采用了一种二阶近似分裂点算法，从而减少了计算量。

安装XGBoost

在开始之前，我们需要安装xgboost库。可以使用pip命令进行安装：

pip install xgboost

数据准备

在进行二分类任务之前，我们需要准备数据。这里我们使用一个简单的二维数据集作为示例：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

# 生成数据集
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 将数据转换为DMatrix格式
dtrain = xgboost.DMatrix(X_train, label=y_train)
dtest = xgboost.DMatrix(X_test, label=y_test)

构建XGBoost模型

接下来，我们将构建一个XGBoost模型。在构建模型时，我们可以设置一些参数，如学习率、迭代次数等：

import xgboost as xgb

# 设置参数
params = {
    'max_depth': 3,  # 树的最大深度
    'eta': 0.3,      # 学习率
    'objective': 'binary:logistic',  # 二分类任务
    'eval_metric': 'logloss',        # 评估指标
    'seed': 42       # 随机种子
}

# 训练模型
model = xgb.train(params, dtrain, num_boost_round=100)

模型评估

训练完成后，我们可以使用测试集对模型进行评估：

from sklearn.metrics import accuracy_score

# 预测测试集
y_pred = model.predict(dtest)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

关系图

以下是XGBoost模型中各个组件之间的关系图：

erDiagram
    XGBoost ||--o| Tree
    Tree ||--o| Node
    Node {
        int feature_index
        float threshold
        float gain
        int left_child
        int right_child
    }