统计回归模型python代码

原创

鱼弦CTO 2024-07-19 09:46:17 博主文章分类：进阶 ©著作权

文章标签 数据线性回归拟合 文章分类 Python 后端开发 私藏项目实操分享

©著作权归作者所有：来自51CTO博客作者鱼弦CTO的原创作品，请联系作者获取转载授权，否则将追究法律责任

介绍

统计回归模型是一系列用于理解和预测数据关系的技术。这些模型通过拟合数据点来发现输入变量（自变量）和输出变量（因变量）之间的关系。常见的回归分析方法包括线性回归、逻辑回归、多项式回归等。

应用使用场景

金融领域：股票价格预测、信用评分。
医疗领域：疾病预测，治疗效果评估。
市场营销：销售预测，客户行为分析。
社会科学：社会调查数据分析，政策效果评估。
工程：质量控制，性能预测。

原理解释

回归模型的核心是找到一个函数，使得该函数可以最好地描述输入和输出变量之间的关系。通常，我们最小化某种损失函数，例如均方误差，以找到最佳拟合。

算法原理流程图

flowchart LR
    A[收集数据] --> B[数据预处理]
    B --> C[选择回归模型]
    C --> D[训练模型]
    D --> E[模型验证]
    E --> F{模型是否满意?}
    F -- 是 --> G[应用模型]
    F -- 否 --> C

算法原理解释

收集数据：获取与问题相关的数据集。
数据预处理：清洗数据，进行特征选择和转换，处理缺失值等。
选择回归模型：根据具体问题选择合适的回归模型（如线性回归、逻辑回归等）。
训练模型：使用训练数据拟合回归模型，调整参数以最小化损失函数。
模型验证：使用测试数据评估模型性能，检查过拟合或欠拟合情况。
应用模型：如果模型性能满意，将其应用于实际问题。

应用场景代码示例实现

下面是一个使用Python的scikit-learn库进行线性回归的简单示例：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 生成模拟数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 分割数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 模型评估
print(f"Mean Squared Error: {mean_squared_error(y_test, y_pred)}")
print(f"R² Score: {r2_score(y_test, y_pred)}")

# 可视化结果
plt.scatter(X_test, y_test, color='black', label='Actual')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Predicted')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()