线性回归模型评价指标解析

(文章目录)


前言

线性回归是统计学中一种常见的方法,用于建立自变量与因变量之间的线性关系模型。在实际应用中,我们常常需要对线性回归模型的性能进行评估,以了解模型的拟合程度和预测能力。本文将介绍线性回归中几种常见的模型评价指标,包括均方误差(Mean Squared Error,MSE)、均方根误差(Root Mean Squared Error,RMSE)以及平均绝对误差(Mean Absolute Error,MAE)。


一、均方误差(MSE)

均方误差是线性回归模型中最常用的评价指标之一,它衡量了模型的预测值与真实值之间的平方差的平均值。MSE的计算公式如下:

$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$

其中,$n$表示样本数量,$y_i$表示第$i$个样本的真实值,$\hat{y}_i$表示模型对第$i$个样本的预测值。MSE越小,说明模型对数据的拟合越好。

import numpy as np
from sklearn.metrics import mean_squared_error

# 真实值
y_true = np.array([3, 4, 5, 6, 7])
# 模型预测值
y_pred = np.array([2.5, 4.2, 4.8, 6.2, 7.1])

# 计算均方误差
mse = mean_squared_error(y_true, y_pred)
print("均方误差 (MSE):", mse)

二、均方根误差(RMSE)

均方根误差是均方误差的平方根,它具有与原始数据相同的单位,因此更容易解释。RMSE的计算公式如下:

$$ RMSE = \sqrt{MSE} $$

与MSE一样,RMSE的值越小,表示模型的拟合效果越好。在实际应用中,通常用RMSE来度量模型的性能。

import numpy as np
from sklearn.metrics import mean_squared_error

# 真实值
y_true = np.array([3, 4, 5, 6, 7])
# 模型预测值
y_pred = np.array([2.5, 4.2, 4.8, 6.2, 7.1])

# 计算均方误差
mse = mean_squared_error(y_true, y_pred)
# 计算均方根误差
rmse = np.sqrt(mse)
print("均方根误差 (RMSE):", rmse)

三、平均绝对误差(MAE)

平均绝对误差是另一种常见的模型评价指标,它衡量了模型的预测值与真实值之间的绝对差的平均值。MAE的计算公式如下:

$$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$

与MSE和RMSE不同,MAE不考虑差值的平方,因此对异常值更加鲁棒。MAE的值越小,表示模型的拟合效果越好。

import numpy as np
from sklearn.metrics import mean_absolute_error

# 真实值
y_true = np.array([3, 4, 5, 6, 7])
# 模型预测值
y_pred = np.array([2.5, 4.2, 4.8, 6.2, 7.1])

# 计算平均绝对误差
mae = mean_absolute_error(y_true, y_pred)
print("平均绝对误差 (MAE):", mae)