R语言drop1函数 r语言中drop

转载

fjfdh 2023-09-06 13:41:33

文章标签 R语言drop1函数 r语言函数应用取值 Max 文章分类 R语言后端开发

向量分组

当对数据进行处理的时候，可能需要单独对某一水平的数据进行处理，这时需要使用split()函数。

> str(split)            #列出函数的参数列表
function(x, f, drop=FALSE, ...)

x:函数接受的一个向量或者对象
f:一个因子水平，用来指定分组的水平，然后x根据因子f进行分组
drop:是否去掉所有在分解过程中生成的空的水平
例子一：

> x <- c(rnorm(10), runif(10),rnorm(10,1))   
> f <- gl(3, 10) 
> split(x,f)
$`1`
[1] -0.68283668 -0.72841272  0.99720259 -1.10786179           -1.23341727 -0.84170453
[7]  0.30349491  0.01993665  0.30435412 -0.17732936

$`2`
[1] 0.329310104 0.460121336 0.007198808 0.698278960 0.806942514 0.496464276
[7] 0.586641019 0.926427904 0.084612117 0.266162270

$`3`
[1]  2.8339886 -0.4827860  0.8028158  1.4590800  3.0353226  1.5399591
[7]  0.8244989  1.0709710  1.6505017  2.1475552

例子二：

> library(MASS)
> split(Cars93$MPG.city,Cars93$Origin)
$USA
[1] 22 19 16 19 16 16 25 25 19 21 18 15 17 17 20 23 20 29 23 22 17 21 18 29
[25] 20 31 23 22 22 24 15 21 18 17 18 23 19 24 23 18 19 23 31 23 19 19 19 28

$`non-USA`
[1] 25 18 20 19 22 46 30 24 42 24 29 22 26 20 17 18 18 29 28 26 18 17 20 19
[25] 29 18 29 24 17 21 20 33 25 23 39 32 25 22 18 25 17 21 18 21 20

将函数应用于每个列表元素

lapply()

> str(lapply)
function (X, FUN, ...)

“l”代表list，输出为列表，并将指定的操作应用于列表中的所有元素

sapply()

> str(sapply)
function (X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)

“s”代表simplify，“简化”的意思，与lapply()不同的是，sapply()将对结果进行简化，简化为向量或者矩阵。具体来说，如果apply的结果是一个所有元素长度都为1的list，sapply()会将结果转换为vector；如果apply的结果是一个所有元素长度都相等且大于1的list，sapply()会将结果转换为matrix；如果sapply()无法判断简化规则，则不对结果进行简化，返回list，此时得到的结果和lapply()相同。

将函数应用于每行或每列

apply()

> str(apply)
function (X, MARGIN, FUN, ...)

其中：
X是一个矩阵，MARGIN为一个向量（表示要将函数FUN应用到X的行还是列），若为1表示取行，为2表示取列，为c(1,2)表示行、列都计算，FUN为具体函数。

> ma <- matrix(c(1:4, 1, 6:8), nrow = 2)
> ma
     [,1] [,2] [,3] [,4]
[1,]    1    3    1    7
[2,]    2    4    6    8
> apply(ma, c(1,2), sum)
     [,1] [,2] [,3] [,4]
[1,]    1    3    1    7
[2,]    2    4    6    8
> apply(ma, 1, sum)
[1] 12 20
> apply(ma, 2, sum)
[1]  3  7  7 15

将函数应用于组数据

tapply()

> str(tapply)
function (X, INDEX, FUN = NULL, ..., simplify = TRUE)

其中X通常是一向量；INDEX是一个list对象，且该list中的每一个元素都是与X有同样长度的因子；FUN是需要计算的函数；simplify是逻辑变量，若取值为TRUE（默认值），且函数FUN的计算结果总是为一个标量值，那么函数tapply返回一个数组；若取值为FALSE，则函数tapply的返回值为一个list对象。需要注意的是，当第二个参数INDEX不是因子时，函数 tapply() 同样有效，因为必要时 R 会用 as.factor()把参数强制转换成因子。

> fac <- factor(rep(1:3, length = 17), levels = 1:5)
> fac
 [1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2
Levels: 1 2 3 4 5
> tapply(1:17, fac, sum)
 1  2  3  4  5 
51 57 45 NA NA 
> tapply(1:17, fac, length)
 1  2  3  4  5 
 6  6  5 NA NA

将函数应用于行组

有时候需要将函数应用于数据框中的行组。

> a
  性别 姓名 分数
1    F    a   90
2    F    b   85
3    M    c   70
4    F    d   94
5    M    e   60
> by(a,a$性别,summary)
a$性别: F
 性别  姓名       分数      
 F:3   a:1   Min.   :85.00  
 M:0   b:1   1st Qu.:87.50  
       c:0   Median :90.00  
       d:1   Mean   :89.67  
       e:0   3rd Qu.:92.00  
             Max.   :94.00  
-------------------------------------------
a$性别: M
 性别  姓名       分数     
 F:0   a:0   Min.   :60.0  
 M:2   b:0   1st Qu.:62.5  
       c:1   Median :65.0  
       d:0   Mean   :65.0  
       e:1   3rd Qu.:67.5  
             Max.   :70.0

该数据包含一个因子来识别每个记录的性别，所以by可以根据性别将数组分为两组，并且对每组分别调用summary函数。结果为两个汇总，一个是关于男性的，一个是关于女性的。

将函数应用于平行向量或列表

mappl可以看成是sapply的多变量版本，其用法是：

> str(mapply)
function (FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE, USE.NAMES = TRU

将FUN依次应用到每一个参数的第一个元素，第二个元素，第三个…，其中MoreArgs表示函数的参数列表

mapply(seq,from=1:6,to=10,by=1:2)
[[1]]
[1]  1  2  3  4  5  6  7  8  9 10

[[2]]
[1]  2  4  6  8 10

[[3]]
[1]  3  4  5  6  7  8  9 10

[[4]]
[1]  4  6  8 10

[[5]]
[1]  5  6  7  8  9 10

[[6]]
[1]  6  8 10

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。