python 加权线性回归

原创

mob64ca12e8d855 2024-11-11 03:46:46 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e8d855的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 加权线性回归入门

加权线性回归是一种常用的数据建模方法，通过对不同的数据点赋予不同的权重，来优化回归模型，使其更能反映数据的真实情况。这种方法在处理具有不同重要性的数据时尤为有效。本文将逐步教会你如何实现 Python 加权线性回归。

流程概述

在实现加权线性回归之前，了解整个流程是非常重要的。以下是实现加权线性回归的步骤：

步骤	描述
1. 导入库	导入必要的 Python 库
2. 准备数据	收集并准备数据，包括特征和目标值
3. 定义模型	使用加权线性回归模型的库
4. 训练模型	将数据与权重输入模型进行训练
5. 评估模型	检查模型性能并做出预测
6. 可视化结果	可视化预测结果和真实数据

每一步骤的详细说明

1. 导入库

首先，我们需要导入必要的 Python 库。主要用到Numpy、Pandas和Statsmodels。

import numpy as np      # 用于数据处理和数值计算
import pandas as pd     # 用于数据框操作
import statsmodels.api as sm  # 用于回归模型的构建

2. 准备数据

准备一些简单的示例数据，包括特征和目标变量，并为每个点定义权重。

# 创建示例数据
data = {
    'X': [1, 2, 3, 4, 5, 6],
    'Y': [1.2, 1.8, 2.5, 3.42, 4.1, 5.5],
    'weights': [1, 1, 1, 2, 2, 2]  # 权重，越高的权重表示该点对回归的影响越大
}

# 将数据转换为 DataFrame
df = pd.DataFrame(data)

3. 定义模型

使用 Statsmodels 中的加权线性回归模型。我们需要先设置自变量和因变量。

# 自变量与因变量
X = df['X']
Y = df['Y']
weights = df['weights']

# 在自变量前添加常量项
X = sm.add_constant(X)  # 加入常数项，方便后续拟合模型

4. 训练模型

使用 Statsmodels 进行加权线性回归模型的拟合。

# 构建加权线性回归模型
model = sm.WLS(Y, X, weights=weights)  # 使用加权最小二乘法 (WLS)
results = model.fit()  # 拟合模型

5. 评估模型

查看模型的概述信息以及预测结果。

# 输出模型评估结果
print(results.summary())  # 打印模型的总结，包括系数、R²等信息

# 进行预测
predictions = results.predict(X)
print("预测值:", predictions)  # 输出预测值

6. 可视化结果

使用 Matplotlib 可视化真实数据和预测数据的比较。

import matplotlib.pyplot as plt  # 用于数据可视化

# 绘制真实数据与预测结果
plt.scatter(df['X'], df['Y'], label='真实数据')  # 绘制真实值
plt.plot(df['X'], predictions, color='red', label='预测回归线')  # 绘制预测值
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.title('加权线性回归')
plt.show()  # 显示图形

关系图

下面是用 mermaid 语法绘制的加权线性回归过程中的对象关系图，帮助理解模型的结构和关系：

erDiagram
    DATA {
      integer id PK
      float X
      float Y
      float weight
    }
    MODEL {
      integer id PK
      float coefficient
      float intercept
      float prediction
    }
    DATA ||--o| MODEL : uses