lm函数R语言

原创

mob649e81673fa5 2024-08-28 03:44:54 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e81673fa5的原创作品，请联系作者获取转载授权，否则将追究法律责任

用R语言的lm函数进行线性回归分析

线性回归是一种统计工具，用于描述一个自变量和一个因变量之间的关系。在R语言中，lm()函数是用于进行线性回归分析的主要工具。本文将详细介绍lm()函数的用法，并通过代码示例和图表来帮助大家理解这一过程。

lm函数的基本用法

lm()函数的基本调用格式如下：

lm(formula, data = your_data)

formula表示模型的公式，通常是y ~ x的形式，其中y为因变量，x为自变量。
data为包含数据的数据框。

例如，假设我们有一个名为mydata的数据框，包含两个变量：成绩score和学习时间study_time。我们想研究学习时间对成绩的影响，可以使用以下代码：

# 创建数据框
mydata <- data.frame(
  study_time = c(1, 2, 3, 4, 5),
  score = c(50, 55, 60, 65, 75)
)

# 线性回归模型
model <- lm(score ~ study_time, data = mydata)

# 查看模型总结
summary(model)

模型结果的解释

运行summary(model)后，您将看到一个有关模型的重要统计信息，包括R平方值、系数估计值等。R平方值表示模型对数据变异的解释能力，越接近1表示模型越好。系数估计值则说明每增加一个单位的学习时间，成绩的变化量。

可视化结果

可视化是理解回归模型的重要步骤。我们可以通过绘制散点图以及回归线来展示结果。

# 绘制散点图和回归线
plot(mydata$study_time, mydata$score, main = "学习时间与成绩的关系", 
     xlab = "学习时间 (小时)", ylab = "成绩", pch = 19)
abline(model, col = "blue", lwd = 2)

这段代码将生成一张散点图，散点图将学习时间与成绩的关系可视化，同时用蓝色线条表示回归模型。

绘制饼状图

饼状图是一种可以展示部分与整体关系的图形，我们可以通过ggplot2来绘制。例如，我们分析学生成绩的分布情况：

library(ggplot2)

score_categories <- data.frame(
  category = c("60及以下", "60-70", "70-80"),
  count = c(2, 2, 1)
)

# 绘制饼状图
ggplot(score_categories, aes(x = "", y = count, fill = category)) +
  geom_bar(stat = "identity", width = 1) +
  coord_polar("y") +
  labs(title = "学生成绩分布情况")

p饼状图会展示各个成绩区间的学生数量分布。

pie
    title 学生成绩分布情况
    "60及以下": 2
    "60-70": 2
    "70-80": 1

序列图

当我们需要展示分析过程中步骤之间的关系，序列图是一种非常有效的工具。以下是一个简单的序列图示例，展示了数据的准备、模型创建和结果评估的流程。

sequenceDiagram
    participant A as 用户
    participant B as 数据准备
    participant C as 模型建立
    participant D as 结果分析

    A->>B: 准备数据
    B->>C: 创建线性回归模型
    C->>D: 评估结果
    D-->>A: 返回评估报告