R语言指数分布随机数 r语言数据随机分组

转载

mob6454cc769a22 2024-08-10 14:08:54

文章标签 R语言指数分布随机数常用正则表达式汇总数据采集数据处理数据 文章分类 R语言后端开发

学完这节课，你可以：

了解分组和汇总的基本概念和用法
用R语言进行数据分组汇总处理

如你的电脑还未安装R语言环境，可参考R语言安装中第一部分安装

一、分组和聚合运算的图解

分组（group_by）和聚合（summarise）是一对双胞胎，总是在数据处理时同时出现，下图很好的展示了分组聚合时数据表的处理流程。

分组：将数据按cat类别分成不同的小组。
聚合：在各个组内进行数据操作，比如求和（sum）、计数（n），中位数（median），均值（mean）、最大值（max）、最小值（min）等等。

最终输出表时按分组汇总后的数据表单，很简单，学会了么？

R语言指数分布随机数 r语言数据随机分组_数据采集

分组聚合的数据处理流程

二、R语言分组汇总链家数据

如果我们有一波链家测试数据，我希望获取每个区域的均价，最高价，最低价，应该怎么获取呢？

本节测试数据：

xiaoqu.csv

5.4M

百度网盘

R语言指数分布随机数 r语言数据随机分组_常用正则表达式汇总_02

数据样本

代码如下：

#install.packages('dplyr')
library(dplyr)
data <- read.csv('D:/从0到1学习数据科学/xiaoqu.csv')

district_prict <- data %>% 
  group_by(district) %>% 
  summarise(均价 = mean(xiaoqu_price,na.rm=T),
            最高加 = max(xiaoqu_price,na.rm=T),
            最低价 = min(xiaoqu_price,na.rm=T))

运行结果如下：

R语言指数分布随机数 r语言数据随机分组_数据处理_03