系列文章目录
第一篇:R语言和RStudio安装,载入TXT、CSV和XLSX(利用RODBC)文件
文章目录
- 系列文章目录
- 前言
- 一、国家统计局采集数据
- 二、用R语言对数据进行系统聚类分析
- 1.载入数据文件
- 2.计算距离矩阵和最长距离法聚类
- 3. 绘制谱系图
- 4. 显示聚类结果
- 总结
前言
本文讲述如何到国家统计局采集数据,并利用R语言进行系统聚类分析的过程。
一、国家统计局采集数据
进入国家统计局,在顶部菜单栏的统计数据处,选择数据查询,进入国家数据.
本文使用的数据是2016年我国各省市运输线路长度(铁路营业里程+公路营业里程)。
在顶部菜单导航栏选择“地区数据-分省年度数据”,在左侧的菜单栏先选择“指标-运输与邮电-铁路线路长度”,再选择“地区-全部地区”,在筛选条件处指标设置为铁路营业里程(万公里),时间设置为2016,导出为csv文件。接下来导出公路营业里程的数据文件。
对表格进行处理,铁路线路长度=铁路营业里程+公路营业里程。将文件命名为dataone.csv。
二、用R语言对数据进行系统聚类分析
1.载入数据文件
注意,此处文件的编码方式默认是GBK,毕竟是政府网站导出的数据。
data<-read.csv("D:/dataone.csv",fileEncoding = "GBK")
2.计算距离矩阵和最长距离法聚类
distance <- dist(data) #计算距离矩阵
data.hc <- hclust(distance) #最长距离法聚类
3. 绘制谱系图
plot(data.hc, hang = -1) #绘制谱系图
re <- rect.hclust(data.hc, k = 5) #分为5类
4. 显示聚类结果
for (i in 1:5) {
print(paste("第",i,"类"))
print(data[re[[i]],]$地区)
}
总结
以上就是用R语言对国家统计局采集的“2016全国各省市运输线路长度”数据的系统聚类分析过程。