逻辑回归 Python 代码

原创

mob64ca12da2d62 2024-09-18 06:04:30 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12da2d62的原创作品，请联系作者获取转载授权，否则将追究法律责任

用Python实现逻辑回归

逻辑回归是一种广泛使用的统计方法，可以用于分类问题，尤其是二分类问题。在这篇文章中，我将教你如何使用Python实现逻辑回归。我们将带你一步步完成整个过程，从数据准备到模型评估，确保你能理解每一步的操作。

整体流程

在实现逻辑回归之前，我们需要明确整个过程的步骤。下面是一个详细的流程图和步骤表格。

flowchart TD
    A[开始] --> B[数据收集]
    B --> C[数据预处理]
    C --> D[划分训练集和测试集]
    D --> E[训练逻辑回归模型]
    E --> F[模型预测]
    F --> G[评估模型性能]
    G --> H[结束]

步骤	描述
数据收集	收集并加载我们的数据集
数据预处理	处理缺失值、数据标准化及特征工程
划分数据	将数据划分为训练集和测试集
训练模型	使用训练集训练逻辑回归模型
模型预测	用训练好的模型进行预测
评估模型	根据测试集评估模型的性能

每一步骤详解

1. 数据收集

我们需要选择一个数据集来进行逻辑回归的练习。例如，我们使用著名的鸢尾花数据集。以下是代码片段来加载数据。

import pandas as pd
from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()
# 转换为DataFrame
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['target'] = iris.target
print(data.head())  # 打印前几行数据

代码解释：这里我们使用pandas库来处理数据，利用sklearn中的load_iris函数加载鸢尾花数据集，并将其转换为DataFrame格式。

2. 数据预处理

在现实世界中，数据往往是不完整的或含有噪声的，我们需要进行清洗和标准化处理。

# 检查缺失值
print(data.isnull().sum())  # 输出每列的缺失值

# 如果没有缺失值，我们将进行特征标准化
from sklearn.preprocessing import StandardScaler

# 创建标准化对象
scaler = StandardScaler()
# 对特征数据进行标准化
data.iloc[:, :-1] = scaler.fit_transform(data.iloc[:, :-1])
print(data.head())  # 打印标准化后的数据

代码解释：这段代码首先检查数据是否缺失。如果没有缺失值，我们使用StandardScaler对数据进行标准化，使每个特征的均值为0、方差为1。

3. 划分训练集和测试集

将数据分为训练集和测试集，以便我们可以用训练集训练模型，用测试集进行评估。

from sklearn.model_selection import train_test_split

# 划分数据，70%训练集，30%测试集
X = data.iloc[:, :-1]  # 特征
y = data['target']      # 标签
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
print(X_train.shape, X_test.shape)  # 打印划分后的数据集大小

代码解释：使用train_test_split函数将数据随机划分为训练集和测试集，test_size参数设置测试集占总数据集的比例。

4. 训练逻辑回归模型

现在是训练逻辑回归模型的时刻。

from sklearn.linear_model import LogisticRegression

# 创建逻辑回归对象
model = LogisticRegression()
# 使用训练集数据拟合模型
model.fit(X_train, y_train)
print("模型训练完成！")

代码解释：使用LogisticRegression类创建一个逻辑回归模型，用训练集数据进行训练。

5. 模型预测

接下来，我们使用训练好的模型对测试集进行预测。

# 使用测试集进行预测
y_pred = model.predict(X_test)
print(y_pred)  # 打印预测结果

代码解释：调用模型的predict方法，使用测试集进行预测，并将结果打印出来。

6. 评估模型性能

最后，我们需要评估模型的性能，以确保其准确性。

from sklearn.metrics import accuracy_score, confusion_matrix

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率: {:.2f}%".format(accuracy * 100))

# 打印混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("混淆矩阵:\n", conf_matrix)

代码解释：使用accuracy_score和confusion_matrix分别计算模型的准确率和混淆矩阵，帮助我们了解模型的分类性能。

结论

在这篇文章中，我们详细介绍了如何使用Python实现逻辑回归，从数据收集、预处理，到训练模型并评估性能。希望你能通过这些步骤，理解逻辑回归的基本原理以及如何使用Python实现它。随着你对数据科学和机器学习的深入了解，你会发现逻辑回归是一个强大的工具，能够帮助你在实际问题中取得成功。继续练习其他模型，你将会在数据分析领域越走越远！