R语言怎么设置变量的长度 r语言长数据变宽数据

转载

小蝌蚪 2023-06-20 17:15:32

文章标签 R语言怎么设置变量的长度 java 大数据机器学习人工智能 文章分类 R语言后端开发

整洁的数据都是相似的，凌乱的数据各有各的不同。

整洁数据（tidy data）是指如下图这样的数据表：

R语言怎么设置变量的长度 r语言长数据变宽数据_R语言怎么设置变量的长度

在表中：

每个变量都拥有自己的列
每个观察/样本都拥有自己的行

数据这样组织有两个明显的好处：既方便以向量的形式访问每一个变量，也方便变量之间进行向量化运算。

在实际工作中，存在长、宽两种数据格式，宽数据是每个样本的信息在表中只占一行，而长数据每个样本的信息在表中占据多行。

本文简单介绍一下通过tidyr包进行长、宽数据格式转换。

安装

install.packages("tidyr")
# 或者
install.packages("tidyverse")

加载

library(tidyr)
# 或者
library(tidyverse)

宽数据转长数据

让数据变长，就是将许多列融合成两列，将列名移动到一个新的列名下，将值移动到另一个新的列名下。

tidyr提供pivot_longer函数可以将宽数据变长。

pivot_longer(
  data,
  cols,
  names_to = "name",
  names_prefix = NULL,
  names_sep = NULL,
  names_pattern = NULL,
  names_ptypes = NULL,
  names_transform = NULL,
  names_repair = "check_unique",
  values_to = "value",
  values_drop_na = FALSE,
  values_ptypes = NULL,
  values_transform = NULL,
  ...
)

创建一个宽表：

library(knitr)

tb_wide = tibble(
  country = LETTERS[1:3],
  `1999` = c('0.7k', '37k', '212k'),
  `2000` = c('2k', '80k', '213k')
)
kable(tb_wide)

country	1999	2000
A	0.7k	2k
B	37k	80k
C	212k	213k

宽数据转长数据：

tb_long = pivot_longer(tb_wide, 2:3, names_to = "year", values_to = "cases")
kable(tb_long)

country	year	cases
A	1999	0.7k
A	2000	2k
B	1999	37k
B	2000	80k
C	1999	212k
C	2000	213k

长数据转宽数据

让数据变宽，就是展开表中的两列数据成多列，其中一列提供新的列名，另一列提供值。

tidyr中的pivot_wider与pivot_longer的操作正好相反，可以将长数据转换为宽数据。

pivot_wider(
  data,
  id_cols = NULL,
  id_expand = FALSE,
  names_from = name,
  names_prefix = "",
  names_sep = "_",
  names_glue = NULL,
  names_sort = FALSE,
  names_vary = "fastest",
  names_expand = FALSE,
  names_repair = "check_unique",
  values_from = value,
  values_fill = NULL,
  values_fn = NULL,
  unused_fn = NULL,
  ...

以上一步得到的长数据tb_long为例，我们将它还原成宽数据格式：

tb_wide_new = pivot_wider(tb_long, names_from = 'year', values_from = 'cases')
kable(tb_wide_new)

country	1999	2000
A	0.7k	2k
B	37k	80k
C	212k	213k

可以看到，转换后的表与最初的宽表完全一致。

最后总结

tidyr包最重要的两个函数是：

pivot_longer，将宽数据转换为长数据，就是将很多列变成两列。
pivot_wider，将长数据转换为宽数据，就是将两列变成很多列。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：spark用python spark用python语言读取tif文件

下一篇：java 端口组 java常用端口号

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯