学完这节课,你可以:

  1. 了解分组和汇总的基本概念和用法
  2. 用R语言进行数据分组汇总处理

如你的电脑还未安装R语言环境,可参考R语言安装中第一部分安装

一、分组和聚合运算的图解

分组(group_by)和聚合(summarise)是一对双胞胎,总是在数据处理时同时出现,下图很好的展示了分组聚合时数据表的处理流程。

  • 分组:将数据按cat类别分成不同的小组。
  • 聚合:在各个组内进行数据操作,比如求和(sum)、计数(n),中位数(median),均值(mean)、最大值(max)、最小值(min)等等。

最终输出表时按分组汇总后的数据表单,很简单,学会了么?


R语言 指数分布随机数 r语言数据随机分组_数据采集

分组聚合的数据处理流程


二、R语言分组汇总链家数据

如果我们有一波链家测试数据,我希望获取每个区域的均价,最高价,最低价,应该怎么获取呢?

本节测试数据:

xiaoqu.csv


5.4M

·

百度网盘


R语言 指数分布随机数 r语言数据随机分组_常用正则表达式汇总_02

数据样本

代码如下:


#install.packages('dplyr')
library(dplyr)
data <- read.csv('D:/从0到1学习数据科学/xiaoqu.csv')

district_prict <- data %>% 
  group_by(district) %>% 
  summarise(均价 = mean(xiaoqu_price,na.rm=T),
            最高加 = max(xiaoqu_price,na.rm=T),
            最低价 = min(xiaoqu_price,na.rm=T))


运行结果如下:


R语言 指数分布随机数 r语言数据随机分组_数据处理_03

各区域小区均价

数据分组聚合是平时工作中必备技能,在R中实现非常简单,大家多多练习,可以对工作效率有很大提升。