r语言给一组成绩判断及不及格 r语言将成绩评定等级

转载

mob64ca13f5c557 2023-11-06 13:32:56

文章标签 r语言给一组成绩判断及不及格 r语言数据最小二乘法 ci 文章分类 R语言后端开发

1、R（至少）有三个各自独立的对象系统。S3和S4是S语言的不同版本，S3实现了基于generic function的面向对象。S4正式加入class definition等一套机制，使其更为严格。R5（reference class）是一种message passing OOP，更像Java。大部分基本统计方法和类（stats包）是用S3写的，Bioconductor是S4写的。

2、Bioconductor是一个基于R语言的、面向基因组信息分析的应用软件集合。Bioconductor的应用功能是以包的集成形式呈现在用户面前，它提供的软件包中包括各种基因组数据分析和注释工具，其中大多数工具是针对DNA微阵列或基因芯片数据的处理、分析、注释及可视化的。同时，Bioconductor还提供许多与DNA微阵列相关的数据包。

3、ExamsQuiz.txt，如下所示：

[plain] view plain copy

1. 2.0    3.3    4.0  
2. 3.3    2.0    3.7  
3. 4.0    4.3    4.0  
4. 2.3    0.0    3.3  
5. 2.3    1.0    3.3  
6. 3.3    3.7    4.0

说明：

(1)数字表示的是学生成绩的学分绩点。每一行包含的是一个学生的数据，由其中考试成绩、期末考试成绩和平均小测验成绩组成。此例的兴趣点在于用期中考试成绩和平均小测验成绩来预测期末成绩。

(2)ExamsQuiz.txt数据集只是其中的部分。（自己没有找到完整的数据集）

(3)通过剖析整个案例，理解统计原理，提高R编程能力。

4、读入文件，如下所示：

[plain] view plain copy

1. examsquiz <- read.table("ExamsQuiz.txt", header=FALSE)

(1)getwd()

解析：

查看当前工作目录。

(2)setwd(dir)

解析：

设置当前工作目录。dir是一个字符串，比如："F:/R"。

(3)将ExamsQuiz.txt放在当前工作目录下面。

(4)这个数据文件的第一行不是记录的变量名，也就是说没有表头行，所以在函数调用中设定header=FALSE。实际上，表头参数的默认值已经是FALSE了，所以没有必要做前面那样的设定，不过这样做会更明了。语法如下：

[plain] view plain copy

1. read.table(file, header = FALSE, sep = "", quote = "\"'",  
2.            dec = ".", row.names, col.names,  
3.            as.is = !stringsAsFactors,  
4.            na.strings = "NA", colClasses = NA, nrows = -1,  
5.            skip = 0, check.names = TRUE, fill = !blank.lines.skip,  
6.            strip.white = FALSE, blank.lines.skip = TRUE,  
7.            comment.char = "#",  
8.            allowEscapes = FALSE, flush = FALSE,  
9.            stringsAsFactors = default.stringsAsFactors(),  
10.            fileEncoding = "", encoding = "unknown")

5、现在数据在examsquiz中，它是数据框类的R对象，如下所示：

[plain] view plain copy

1. > class(examsquiz)  
2. [1] "data.frame"

6、为了检查数据文件刚才是否已读入，查看一下数据的前几行，如下所示：

[plain] view plain copy

1. > head(examsquiz)  
2.    V1  V2  V3  
3. 1 2.0 3.3 4.0  
4. 2 3.3 2.0 3.7  
5. 3 4.0 4.3 4.0  
6. 4 2.3 0.0 3.3  
7. 5 2.3 1.0 3.3  
8. 6 3.3 3.7 4.0

说明：

由于缺少数据表头行，R自动把列名设置为V1、V2和V3，行号出现在每行的最左边。

7、我们来用期中考试成绩（examsquiz的第一列）预测期末考试成绩（examsquiz的第二列），如下所示：

[plain] view plain copy

1. lma <- lm(examsquiz[, 2] ~ examsquiz[, 1])

解析：

(1)这里调用lm()函数（lm是linear model的缩写），让R拟合下面的预测方程：

r语言给一组成绩判断及不及格 r语言将成绩评定等级_r语言

(2)我们用数据中的数对（期中考试成绩，期末考试成绩）拟合了一条直线。拟合过程是用经典的最小二乘法来完成的。

(3)也可以这样写：lma <- lm(examsquiz$V2 ~ examsquiz$V1)

8、lm()的返回结果现在是保存于变量lma中的对象。可以调用attributes()函数列出它的所有组件，如下所示：

[plain] view plain copy

1. $names  
2.  [1] "coefficients"  "residuals"     "effects"        
3.  [4] "rank"          "fitted.values" "assign"         
4.  [7] "qr"            "df.residual"   "xlevels"        
5. [10] "call"          "terms"         "model"          
6.   
7. $class  
8. [1] "lm"

9、调用str(lma)可以得到lma的更详细说明。在命令提示符下键入系数的变量名就可以显示系数，如下所示：

[plain] view plain copy

1. > lma$coefficients  
2.    (Intercept) examsquiz[, 1]   
3.      -1.293886       1.282751

解析：

在键入组件名时也可以使用缩写形式，比如：lma$coef。

10、打印对象lma，如下所示：

[plain] view plain copy

1. > lma  
2. Call:  
3. lm(formula = examsquiz[, 2] ~ examsquiz[, 1])  
4.   
5. Coefficients:  
6.    (Intercept)  examsquiz[, 1]    
7.         -1.294           1.283

解析：

为什么R只打印出这些项，而没有打印出lma的其他组件？这个问题的答案是，R在这里使用的print()函数是另一个泛型函数的例子，作为一个泛型函数，print()实际上把打印的任务交给了另一个函数——print.lm()，这个函数的功能是打印lm类的对象，即上面函数展示的内容。

11、可以用泛型函数summary()打印输出lma的更详细的内容，它实际上在后台调用了summary.lm()，得出针对某个特定回归模型的摘要，如下所示：

[plain] view plain copy

1. > summary(lma)  
2. Call:  
3. lm(formula = examsquiz[, 2] ~ examsquiz[, 1])  
4.   
5. Residuals:  
6.       1       2       3       4       5       6   
7.  2.0284 -0.9392  0.4629 -1.6564 -0.6564  0.7608   
8.   
9. Coefficients:  
10.                Estimate Std. Error t value Pr(>|t|)  
11. (Intercept)     -1.2939     2.5308  -0.511    0.636  
12. examsquiz[, 1]   1.2828     0.8567   1.497    0.209  
13.   
14. Residual standard error: 1.497 on 4 degrees of freedom  
15. Multiple R-squared: 0.3592, Adjusted R-squared: 0.199   
16. F-statistic: 2.242 on 1 and 4 DF,  p-value: 0.2087

12、lm()函数语法，如下所示：

[plain] view plain copy

1. lm(formula, data, subset, weights, na.action,  
2.    method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,  
3.    singular.ok = TRUE, contrasts = NULL, offset, ...)

13、要用期中考试成绩和检测成绩预测期末考试成绩，可以使用记号+，如下所示：

[plain] view plain copy