Python 残差最小

原创

mob649e815ddfb8 2024-10-18 10:08:39 ©著作权

文章标签 线性回归 Python 拟合 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e815ddfb8的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 残差最小：深入了解线性回归中的残差分析

在数据科学和统计分析中，线性回归是一种重要的工具，用于建立自变量与因变量之间的关系模型。在线性回归模型中，残差是一个不可忽视的概念。本文将介绍什么是残差，如何通过 Python 进行残差分析，并通过相关的代码示例帮助大家更好地理解。

什么是残差？

在统计建模中，残差指的是观测值与模型预测值之间的差值。若我们有一组数据点，残差可以被定义为：

[ 残差 = 观测值 - 预测值 ]

残差的最小化是线性回归的核心目标之一。通过最小化残差平方和（SSE），我们可以找到最优的回归线，使得我们的模型更好地拟合数据。

残差的可视化

在进行残差分析时，可视化是非常重要的。通常，我们会使用残差图来查看残差的分布情况。残差应该是随机的，如果存在模式，则可能意味着模型没有完全捕捉到数据中的信息。

关系图

以下是残差与预测值之间的关系图的设计示意，使用 mermaid 语法展示：

erDiagram
    观测值 {
        string 数据点
        float 值
    }
    预测值 {
        string 模型
        float 值
    }
    残差 {
        string 数据点
        float 差值
    }
    观测值 ||--o{ 残差 : 包含
    预测值 ||--o{ 残差 : 生成

Python 实现线性回归与残差分析

接下来，我们将使用 Python 的 scikit-learn 库来进行线性回归，并计算和可视化残差。

安装依赖

首先，确保你安装了必要的库：

pip install numpy pandas matplotlib scikit-learn

示例代码

以下是一个简单的示例代码，其中包含数据生成、模型拟合、残差计算和可视化的步骤：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 生成样本数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 拟合线性回归模型
model = LinearRegression()
model.fit(X, y)

# 进行预测
y_pred = model.predict(X)

# 计算残差
residuals = y - y_pred

# 可视化实际值与预测值
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.scatter(X, y)
plt.plot(X, y_pred, color='red', linewidth=2)
plt.title('实际值与预测值')
plt.xlabel('自变量')
plt.ylabel('因变量')

# 可视化残差
plt.subplot(1, 2, 2)
plt.scatter(y_pred, residuals)
plt.axhline(y=0, color='red', linestyle='--')
plt.title('残差图')
plt.xlabel('预测值')
plt.ylabel('残差')

plt.tight_layout()
plt.show()