系列文章目录

第一篇:R语言和RStudio安装,载入TXT、CSV和XLSX(利用RODBC)文件



文章目录

  • 系列文章目录
  • 前言
  • 一、国家统计局采集数据
  • 二、用R语言对数据进行系统聚类分析
  • 1.载入数据文件
  • 2.计算距离矩阵和最长距离法聚类
  • 3. 绘制谱系图
  • 4. 显示聚类结果
  • 总结



前言

本文讲述如何到国家统计局采集数据,并利用R语言进行系统聚类分析的过程。


一、国家统计局采集数据

进入国家统计局,在顶部菜单栏的统计数据处,选择数据查询,进入国家数据.

R语言对RFM进行聚类分析 r语言聚类分析实验报告_R语言对RFM进行聚类分析


本文使用的数据是2016年我国各省市运输线路长度(铁路营业里程+公路营业里程)。

在顶部菜单导航栏选择“地区数据-分省年度数据”,在左侧的菜单栏先选择“指标-运输与邮电-铁路线路长度”,再选择“地区-全部地区”,在筛选条件处指标设置为铁路营业里程(万公里),时间设置为2016,导出为csv文件。接下来导出公路营业里程的数据文件。

对表格进行处理,铁路线路长度=铁路营业里程+公路营业里程。将文件命名为dataone.csv。

R语言对RFM进行聚类分析 r语言聚类分析实验报告_聚类_02


R语言对RFM进行聚类分析 r语言聚类分析实验报告_开发语言_03

二、用R语言对数据进行系统聚类分析

1.载入数据文件

注意,此处文件的编码方式默认是GBK,毕竟是政府网站导出的数据。

data<-read.csv("D:/dataone.csv",fileEncoding = "GBK")

2.计算距离矩阵和最长距离法聚类

distance <- dist(data)  #计算距离矩阵
data.hc <- hclust(distance) #最长距离法聚类

3. 绘制谱系图

plot(data.hc, hang = -1) #绘制谱系图
re <- rect.hclust(data.hc, k = 5) #分为5类

R语言对RFM进行聚类分析 r语言聚类分析实验报告_r语言_04

4. 显示聚类结果

for (i in 1:5) {
print(paste("第",i,"类"))
print(data[re[[i]],]$地区)
}

R语言对RFM进行聚类分析 r语言聚类分析实验报告_R语言对RFM进行聚类分析_05


总结

以上就是用R语言对国家统计局采集的“2016全国各省市运输线路长度”数据的系统聚类分析过程。