机器学习 K折交叉验证

原创

mob64ca12eb3858 2025-02-14 07:13:42 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12eb3858的原创作品，请联系作者获取转载授权，否则将追究法律责任

理解机器学习中的K折交叉验证

在机器学习模型的训练过程中，为了评估模型的性能，我们通常使用交叉验证的方法。其中，K折交叉验证是最常见的一种方法。今天，我将向你介绍K折交叉验证的流程，以及如何在Python中实现它。

K折交叉验证的流程

K折交叉验证的基本流程如下表所示：

步骤	描述
1	将数据集划分为K个子集（折叠）
2	对于每个子集，使用该子集进行验证，剩余的K-1个子集进行训练
3	记录每次验证的性能指标
4	计算所有折叠的平均性能指标
5	输出最终的验证性能

实现步骤

接下来，我们将通过具体的代码示例来说明如何实施K折交叉验证。

1. 导入必要的库

首先，你需要导入一些机器学习相关的库。

import numpy as np
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

注释：

numpy用于科学计算，提供了对数组的支持。
pandas用于数据处理和分析。
KFold是交叉验证工具，允许我们将数据划分为K个子集。
LogisticRegression是我们将要使用的分类模型。
accuracy_score用于评估模型的准确性。

2. 准备数据集

接下来，我们需要准备一个数据集。这里我们可以使用pandas读取数据。

# 生成一个假数据集
data = {
    'feature1': np.random.rand(100),
    'feature2': np.random.rand(100),
    'target': np.random.randint(0, 2, 100)
}
df = pd.DataFrame(data)

# 特征和目标变量的分离
X = df[['feature1', 'feature2']]
y = df['target']

注释：

data字典中创建随机特征和目标变量。
使用pandas将字典转为数据框，便于数据处理。

3. 实施K折交叉验证

通过循环实现K折交叉验证，记录每次的准确性。

# 定义K折交叉验证
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 存储每次验证的准确性
accuracies = []

# 开始K折交叉验证
for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    
    # 定义模型
    model = LogisticRegression()
    
    # 模型训练
    model.fit(X_train, y_train)
    
    # 模型预测
    y_pred = model.predict(X_test)
    
    # 计算准确性
    accuracy = accuracy_score(y_test, y_pred)
    accuracies.append(accuracy)

# 输出平均准确性
average_accuracy = np.mean(accuracies)
print(f'Average Accuracy: {average_accuracy:.2f}')

注释：

KFold(n_splits=k, shuffle=True, random_state=42)创建K折交叉验证对象。
用kf.split(X)生成训练集和测试集的索引。
在每次循环中，根据索引划分训练集和测试集。
通过调用model.fit()来训练模型，并用model.predict()进行预测。
使用accuracy_score计算并保存每一轮的准确性。
最后计算所有折叠的平均准确性，并打印输出。

4. 结果分析

通过这个过程，我们可以得到模型的平均准确性，从而了解模型的泛化能力。K折交叉验证可以有效减小由于数据划分造成的评估不稳定性，帮助我们选出最优的模型。

结尾

K折交叉验证是评估模型性能的重要工具。尽管操作简单，但它提供的结果却是对模型可靠性的有力证明。在日后的模型构建和评估过程中，建议你时常使用K折交叉验证来提升模型的可信度。

通过本篇文章，你应该对K折交叉验证有了全面的理解，并能独立实现它。记住，机器学习的路还很长，多多实践，巩固所学知识哦！

classDiagram
    class KFold {
        +n_splits: int
        +shuffle: bool
        +random_state: int
        +split(X): list
    }
    class LogisticRegression {
        +fit(X, y)
        +predict(X): list
    }
    class accuracy_score {
        +call(y_true, y_pred)
    }

希望这篇文章对你对于K折交叉验证的学习有所帮助！