logistic回归测试集训练集 R语言

原创

mob64ca12dea1dc 2024-02-05 05:34:49 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12dea1dc的原创作品，请联系作者获取转载授权，否则将追究法律责任

Logistic回归是一种常见的统计学习方法，用于解决二分类问题。它通过对数据进行逻辑回归分析，得到一个能够将输入变量映射到0或1的函数，从而进行分类预测。本文将介绍Logistic回归的基本原理，并用R语言实现一个简单的模型。

Logistic回归的原理

Logistic回归是一种广义线性模型，其基本形式为：

P(Y=1|X) = e^(β0 + β1*X) / (1 + e^(β0 + β1*X))

其中，P(Y=1|X)表示给定输入变量X时，输出变量Y=1的概率；β0和β1是模型的参数。

Logistic回归的核心思想是利用逻辑函数（logistic function）将线性回归模型的输出转化为概率值。逻辑函数的形式为：

g(z) = 1 / (1 + e^(-z))

其中，z为线性回归模型的输出结果。逻辑函数将z映射到一个介于0和1之间的概率值，表示样本属于类别1的概率。

使用Logistic回归进行分类

下面的示例中，我们使用一个虚拟的数据集来演示如何使用Logistic回归进行分类。首先，我们需要加载必要的R库和数据集。

```R
# 加载必要的库
library(dplyr)
library(ggplot2)

# 生成数据集
set.seed(123)
data <- data.frame(
  x1 = rnorm(100, mean = 0, sd = 1),
  x2 = rnorm(100, mean = 0, sd = 1),
  y = sample(c(0, 1), size = 100, replace = TRUE)
)

我们生成了一个包含100个样本的数据集，其中x1和x2为输入变量，y为输出变量，取值为0或1。

接下来，我们可以使用逻辑回归模型对数据进行拟合，并进行分类预测。

# 拟合逻辑回归模型
model <- glm(y ~ x1 + x2, data = data, family = binomial)

# 预测分类标签
data$y_pred <- ifelse(predict(model, newdata = data, type = "response") > 0.5, 1, 0)

在上述代码中，我们使用glm函数拟合了一个逻辑回归模型，并使用predict函数对数据集进行了分类预测。预测结果存储在y_pred列中。

最后，我们可以计算模型的准确率，并绘制分类结果的关系图。

# 计算准确率
accuracy <- sum(data$y_pred == data$y) / nrow(data)
cat("Accuracy:", accuracy, "\n")

# 绘制关系图
ggplot(data, aes(x = x1, y = x2, color = factor(y_pred))) +
  geom_point() +
  scale_color_manual(values = c("blue", "red"), labels = c("0", "1")) +
  labs(title = "Logistic Regression", x = "x1", y = "x2")

在上述代码中，我们使用ggplot2库绘制了一个散点图，并将预测的分类结果用不同的颜色标记。