学完这节课,你可以:
- 了解分组和汇总的基本概念和用法
- 用R语言进行数据分组汇总处理
如你的电脑还未安装R语言环境,可参考R语言安装中第一部分安装
一、分组和聚合运算的图解
分组(group_by)和聚合(summarise)是一对双胞胎,总是在数据处理时同时出现,下图很好的展示了分组聚合时数据表的处理流程。
- 分组:将数据按cat类别分成不同的小组。
- 聚合:在各个组内进行数据操作,比如求和(sum)、计数(n),中位数(median),均值(mean)、最大值(max)、最小值(min)等等。
最终输出表时按分组汇总后的数据表单,很简单,学会了么?
分组聚合的数据处理流程
二、R语言分组汇总链家数据
如果我们有一波链家测试数据,我希望获取每个区域的均价,最高价,最低价,应该怎么获取呢?
本节测试数据:
xiaoqu.csv
5.4M
·
百度网盘
数据样本
代码如下:
#install.packages('dplyr')
library(dplyr)
data <- read.csv('D:/从0到1学习数据科学/xiaoqu.csv')
district_prict <- data %>%
group_by(district) %>%
summarise(均价 = mean(xiaoqu_price,na.rm=T),
最高加 = max(xiaoqu_price,na.rm=T),
最低价 = min(xiaoqu_price,na.rm=T))
运行结果如下:
各区域小区均价
数据分组聚合是平时工作中必备技能,在R中实现非常简单,大家多多练习,可以对工作效率有很大提升。