自己整理编写的R语言常用数据分析模型的模板,原文件为Rmd格式,直接复制粘贴过来,作为个人学习笔记保存和分享。部分参考薛毅的《统计建模与R软件》和《R语言实战》

聚类分析是一类将数据所研究对象进行分类的统计方法,这一类方法的共同特点是:事先不知道类别的个数和结构,据以进行分析的数据是对象之间的相似性或相异性的数据。将这些相似(相异)性数据看成是对象之间的“距离”远近的一种度量,将距离近的变量归为一类,不同类之间的对象距离较远。这就是聚类分析方法的共同思路。

setwd("C://Users//DELL//Documents//WD")

需要安装的包

install.packages("NbClust")
install.packages("flexclust")

1. 数据的预处理

1.1 R里的距离计算公式

在度量空间中,可自行定义距离公式。常用的定量变量间的距离公式有:绝对值距离、Euclide距离、Minkowski距离、Chebyshev距离、Mahalanobis距离、Lance和Williams距离。除此之外还有对定型变量的距离公式。

在R软件中,dist()函数给出了各种距离的计算结果,其使用格式为:

dist(x, method = " ",diag = FALSE, upper = FALSE, p = 2)

其中x是样本构成的数据矩阵(样本按行输入)或数据框,method表示计算距离选用的方法,缺省值为Euclide距离,其他可选用的方法有:

  • “euclidean” – Euclide距离
  • “maximum” – Chebyshev距离
  • “manhattan” – 绝对值距离
  • “canberra” – Lance距离
  • “minkowski” – Minkowski距离,其中参数p是Minkowski距离的阶数,即公式中的q
  • “binary” – 定型变量的距离
    (以上距离的数学公式可参见薛毅书P467)

diag是逻辑变量,当diag = TRUE时,给出对角线上的距离;upper是逻辑变量,当upper = TRUE时,给出上三角矩阵的值(缺省值仅给出下三角矩阵的值)

1.2 数据中心化与标准化变换

在作聚类分析过程中,大多数数据往往是不能直接参与运算的,需要先将数据作中心化或标准化处理。

* 1.2.1 中心化变换*

Xij* = Xij - Xj均, i=1,2,…,p 为中心化变换,
变换后数据的均值为0,方差阵不变

* 1.2.2 标准化变换*

Xij* = (Xij - Xj均)/Sj, i=1,2,…,p 为中心化变换,
变换后数据,每个变量的样本均值均为0,标准差为1,而且标准化后的数据与变量的量纲无关

在R软件中,用scale()函数作数据的中心化或标准化,使用格式为:

scale(x, center = TRUE, scale = TRUE)

其中x是样本构成的数据矩阵,center是逻辑变量,TRUE(缺省值)表示对数据作中心化变换,FALSE表示不作变换;scale是逻辑变量,TRUE(缺省值)表示表示对数据作标准化变换,FALSE表示不作变换。
1.2.1中公式的计算函数为:X* = scale(x,scale = FALSE);
1.2.2中公式的计算函数为:X* = scale(x)

* 1.2.3 极差标准化变换*

Xij* = (Xij - Xj均)/Rj, i=1,2,…,n,j=1,2,…,p 为极差标准化变换,
变换后的数据,每个变量的样本均值都为0,极差为1,且|Xij*|<1,在以后的分析计算中可以减少误差的产生,同时变换后的数据也是无量纲的量

在R软件中,可用sweep()函数作极差标准化变换,变换过程如下:

center <- sweep( x, 2, apply(x, 2, mean) )
 R <- apply(x, 2, max) - apply(x, 2, min)
 x_star <- sweep(center, 2, R, "/")

其中x是样本构成的数据矩阵,第一行是将数据中心化,第二行是计算极差Rj,j=1,2,…,p,第三行是将中心化后的数据除以极差,得到数据的极差标准化数据。

其中用到的sweep()函数是对数组或矩阵运算,格式为:

sweep(x, MARGIN, STATS, FUN = "-" , ...)

其中x是数组或矩阵,MARGIN是运算的区域,对于矩阵来讲,1表示行,2表示列。STATS是统计量,如apply(x,2,mean)表示各列的均值。FUN表示函数的运算,缺省值为减法运算。

从sweep()函数的用法可知,将上述命令第三行改为x_star <- sweep(center, 2, sd(x), “/”),得到的就是(普通)标准化变换后的结果

* 1.2.4 极差正则化变换*

Xij* = [Xij - MIN 1<=k<=n (Xkj)]/Rj, i=1,2,…,n,j=1,2,…,p 为极差正则化变换
变换后数据 0 <= Xij* <= 1,极差为1,也是无量纲的量

利用sweep()函数,可以得到数据的极差正则化变换,其变换过程如下:

center <- sweep( x, 2, apply(x, 2, min) )
 R <- apply(x, 2, max) - apply(x, 2, min)
 x_star <- sweep(center, 2, R, "/")

1.3 相似系数

聚类分析不仅用来对样本进行分类,也可以对变量来进行分类。在对变量进行分类时,常用相似系数来度量变量之间的相似程度。

* 1.3.1 夹角余弦*

计算公式与计算向量余弦的算法一样,变量Xi的n次观测值作为一个向量,Xj的n个观测值做另一个向量,这里不作展示

在R软件中,可用scale()函数完成两向量余弦的计算,公式如下:

y <- scale(x, center = F, scale = T)/sqrt(nrow(x)-1)
 C <-t(y) %*% y

其中x是样本构成的数据矩阵,C是计算得出的相似系数构成的矩阵

* 1.3.2 相关系数*

相关系数就是对数据作标准化处理后的夹角余弦,也就是变量Xi和变量Xj的相关系数rij,这里记作cij,公式这里不作展示

在R软件中,cij的计算更加方便,即样本的相关矩阵:C <- cor(x)

变量之间常借助于相似系数来定义距离,如令 dij^2 = 1 - cij^2,有时也用相似系数来度量变量间的相似程度。 (上述两公式见薛毅书P473)


2.层次聚类法(也叫系统聚类法)

既可处理分类变量,也可处理连续变量,但不能同时处理两种变量类型,不需要指定类别数。聚类结果间存在着嵌套,或者说层次的关系。系统聚类方法是聚类分析诸方法中用得最多的一种,其基本思想是:开始将n个样本各自作为一类,并规定样本之间的距离和类和类之间的距离,然后将距离最近的两类合并为一个新类,计算新类与其他类的距离;重复进行两个类的合并,每次减少一类,直至所有的样本合并为一类。可用于定义“距离”的统计量包括了欧氏距离(euclidean)、马氏距离(manhattan)、两项距离(binary)、明氏距离(minkowski)。还包括相关系数和夹角余弦。在计算类间距离时则有六种不同的方法,分别是最短距离法、最长距离法、类平均法、重心法、中间距离法、离差平方和法。

在R软件中,hclust()函数提供了系统聚类的计算,plot()函数可画出系统聚类的树形图(或称为谱系图)

hclust()函数使用格式为:

hclust(d, method = "complete", members = NULL)

其中d是由“dist”构成的结构。method是系统聚类方法(缺省值是最长距离法),可选用的其他参数有:

  • “single” – 最短距离法
  • “complete” – 最长距离法
  • “median” – 中间距离法
  • “mcquitty” – Mcquitty相似法
  • “average” – 类平均法
  • “centroid” – 重心法
  • “ward“ – 离差平方和法

members的缺省值为NULL,或与d有相同变量长度的向量,具体使用方法见帮助

plot()函数画出谱系图的格式为:

plot(x, labels = NULL, hang = 0.1, axes = TRUE, frame.plot = FALSE, ann = TRUE, 
 main = "Cluster Dendrogram", sub = NULL, xlab = NULL, ylab = "Height",...)

其中x是由hclust()函数生成的对象,hang是表明谱系图中各类所在的位置,当hang取负值时,谱系图中的类从底部画起。其他参数见plot帮助文件

下面用实例来说明系统聚类方法

2.1 例1. 城镇居民消费水平(对变量进行分类) (cluster1)

城镇居民消费水平通常用8项指标来描述:人均粮食之处(元/人)x1,人均副食支出(元/人)x2,人均烟、酒、茶支出(元/人)x3,人均其他副食支出(元/人)x4,人均衣着商品支出(元/人)x5,人均日用品支出(元/人)x6,人均燃料支出(元/人)x7,人均非商品支出(元/人)x8。这8项指标间存在着一定的相关性。为了研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上是对指标聚类。

* 2.1.1 绘制谱系图*

#用sas中相同的数据源,输入数据,列名称是x1-x8,行名称是1-30的序号
x <- read.csv("cluster1.csv")
#相关系数矩阵
r <- cor(x)
#生成距离结构
d<-as.dist(1-r)  #method缺省值默认是Euclide距离
#用四种不同的距离方法生成系统聚类
hc1<-hclust(d, "single"); hc2<-hclust(d, "complete") #最短距离法和最长距离法
hc3<-hclust(d, "median"); hc4<-hclust(d, "mcquitty") #中间距离法和Mcquitty相似法
#绘制出以上四种方法的树形结构图,并以2x2的形式画在一张图上.图像距离边界的距离
opar <- par(mfrow = c(2, 2))
#hang是表明谱系图中各类所在的位置 当hang取负值时,谱系图中的类从底部画起  生成谱系图
plot(hc1,hang=-1); plot(hc2,hang=-1)
plot(hc3,hang=-1); plot(hc4,hang=-1)
par(opar)

R中与绘制谱系图有关的函数还有as.dendrogram(object, hang = -1, …)

其中object是是由hclust得到的对象,此时plot()函数用法为:

plot(x, type = c("rectangle","triangle"), center = FALSE, 
 edge.root = is.leaf(x)||!is.null(attr(x,"edgetest"), 
 nodePar = NULL, edgePar = list(),
 leaflab = c("perpendicular","textlike","none"),
 dLeaf = NULL, xlab = "", ylab = "", xaxt = "n", yaxt = "s",
 horiz = FALSE, frame.plot = FALSE,...)

其中x是由dendrogram得到的对象,type表示画谱系图的类型,“rectangle”表示矩形(缺省值),“triangle”为三角形;horiz是逻辑变量,当horiz = TRUE时,表示谱系图水平放置。其他参数见帮助文件

* 2.1.2 设置谱系图形状*

#以hc1为例绘制不同参数下的谱系图
dend1<-as.dendrogram(hc1)
#生成两行一列  图像距离边界的距离
opar <- par(mfrow = c(2, 2),mar = c(4,3,1,2))
#通过设置参数分别画出四种不同的图
plot(dend1)  #原始图像
plot(dend1, nodePar=list(pch = c(1,NA), cex=0.8, lab.cex = 0.8),
     type = "t", center=TRUE)  #斜线
plot(dend1, edgePar=list(col = 1:2, lty = 2:3), dLeaf=1, edge.root = TRUE)  #虚线
plot(dend1, nodePar=list(pch = 2:1,cex=.4*2:1, col = 2:3), horiz=TRUE)      #纵向
par(opar)

2.2 例2. 女中学生体型指标分类(对变量进行分类)(一个小函数让图形好看一点)

对305名女中学生测量8个体型指标,给出相应的相关矩阵。将相关系数看成相似系数,定义距离为:dij = 1 - rij,用最长距离法作系统聚类分析

# 输入相关矩阵. 
x<- c(1.000, 0.846, 0.805, 0.859, 0.473, 0.398, 0.301, 0.382,
      0.846, 1.000, 0.881, 0.826, 0.376, 0.326, 0.277, 0.277, 
      0.805, 0.881, 1.000, 0.801, 0.380, 0.319, 0.237, 0.345, 
      0.859, 0.826, 0.801, 1.000, 0.436, 0.329, 0.327, 0.365, 
      0.473, 0.376, 0.380, 0.436, 1.000, 0.762, 0.730, 0.629, 
      0.398, 0.326, 0.319, 0.329, 0.762, 1.000, 0.583, 0.577, 
      0.301, 0.277, 0.237, 0.327, 0.730, 0.583, 1.000, 0.539, 
      0.382, 0.415, 0.345, 0.365, 0.629, 0.577, 0.539, 1.000)
names<-c("身高 x1", "手臂长 x2", "上肢长 x3", "下肢长 x4", "体重 x5", 
         "颈围 x6", "胸围 x7", "胸宽 x8")
r<-matrix(x, nrow=8, dimnames=list(names, names))
# 作系统聚类分析, 
# as.dist()的作用是将普通矩阵转化为聚类分析用的距离结构. 
d<-as.dist(1-r); hc<-hclust(d); dend<-as.dendrogram(hc)
# 写一段小程序, 其目的是在绘图命令中调用它, 使谱系图更好看.
nP<-list(col=3:2, cex=c(2.0, 0.75), pch= 21:22, 
         bg= c("light blue", "pink"),
         lab.cex = 1.0, lab.col = "tomato")
addE <- function(n){
   if(!is.leaf(n)) {
       attr(n, "edgePar") <- list(p.col="plum")
       attr(n, "edgetext") <- paste(attr(n,"members"),"members")
   }
   n
}
# 画出谱系图.
op<-par(mfrow=c(1,1), mar=c(4,3,0.5,0))
de <- dendrapply(dend, addE); plot(de, nodePar= nP)
par(op)

从图中容易看出,变量x2(手臂长)与x3(上肢长)最先合并成一类,解析来是变量x1(身高)与x4(下肢长)合并成一类.再合并就是将新得到的两类合并成一类(可称为“长”类).后面要合并的是x5(体重)与x3(颈围).再合并就是将x7(胸围)加到新类中.再加就是x8(胸宽).最后合并为一类.


2.3 类的个数的确定

在聚类问题中如何确定合适的分类个数,是一个非常困难的问题,至今没有特别令人满意的答案。

* 2.3.1 rect.hclust()函数确定分类个数*

在R软件中,与确定类的个数有关的函数是rect.hclust()函数,它的本质是由给定类的个数或给定阈值(类与类间的距离)来确定分类个数

rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL, border = 2, cluster = NULL)

其中tree是由hclust生成的结构,k是类的个数,h是谱系图中的阈值,要求分成的各类的距离大于h.border是数或向量,表示矩形框的颜色

对2.2中例2的八个体型指标的聚类分析中,将变量分为三类,即k=3,其程序和计算结果如下:

plclust(hc,hang = -1)   #与plot类似用法
re <- rect.hclust(hc,k=3)   #加入k=3的类

根据谱系图确定分类个数的准则:
A.各类重心的距离必须很大
B.确定的类中,各类所包含的元素都不要太多
C.类的个数必须符合实用目的
D.若采用集中不同的聚类方法处理,则在各自的聚类途中因发现相同的类。

得到身高(x1),手臂长(x2),上肢长(x3),下肢长(x4)分为第一类;胸宽(x8)为第二类;体重(x5),颈围(x6),胸围(x7)分为第三类。

上边程序中,plclust()函数是另一种绘谱系图的函数,与plot()函数所画图形略有差别,使用格式如下:

plclust(tree, hang = 0.1, unit = FALSE, level = FALSE, hmin = 0,
         square = TRUE, labels = NULL, plot. = TRUE,
         axes = TRUE, frame.plot = FALSE, ann = TRUE,
         main = "", sub = NULL, xlab = NULL, ylab = "Height")

其中tree是由hclust()函数生成的对象,其他参数设置与plot()函数中的相同

* 2.3.2 例3.NbClust包确定在一个聚类分析里类的最佳数目*(用flexclust包里自带数据作为例子,clust1是对变量聚类,数据是相关系数矩阵,无法使用)

par(ask=TRUE)
opar <- par(no.readonly=FALSE)
#输入flexclust包自带数据nutrient,是27个不同种类的肉的5个成分含量
data(nutrient, package="flexclust")
row.names(nutrient) <- tolower(row.names(nutrient))
#标准化,生成距离结构,类平均发生成聚类
nutrient.scaled <- scale(nutrient)                                  
d <- dist(nutrient.scaled)                                          
fit.average <- hclust(d, method="average")                          
plot(fit.average, hang=-1, cex=.8, main="Average Linkage Clustering")
#用NbClust()函数判断生成类的个数
library(NbClust)
nc <- NbClust(nutrient.scaled, distance="euclidean", 
              min.nc=2, max.nc=15, method="average")
#设置图形
par(opar)
table(nc$Best.n[1,])
#标准图
barplot(table(nc$Best.n[1,]), xlab="Numer of Clusters", ylab="Number of Criteria",main="Number of Clusters Chosen by 26 Criteria")

函数给出最佳类别数量为2,选择2类

#使用前先清除历史图片,或者将第二个代码块运行两次
#每个种类的个数
clusters <- cutree(fit.average, k=2) 
table(clusters)
#每个种类的中位数
aggregate(nutrient, by=list(cluster=clusters), median) 
#标准化后的中位数
aggregate(as.data.frame(nutrient.scaled), by=list(cluster=clusters),median)
#画图,k选择2
plot(fit.average, hang=-1, cex=.8,main="Average Linkage Clustering\n5 Cluster Solution")
rect.hclust(fit.average, k=2)

根据实际情况,选择5类

clusters <- cutree(fit.average, k=5) 
table(clusters)
aggregate(nutrient, by=list(cluster=clusters), median) 
aggregate(as.data.frame(nutrient.scaled), by=list(cluster=clusters),median)
plot(fit.average, hang=-1, cex=.8,  main="Average Linkage Clustering\n5 Cluster Solution")
rect.hclust(fit.average, k=5)   #k选择5

2.4 例4. 一个具体的实例来总结前面介绍的聚类分析的方法(cluster2、对样本分类)

列出1999年全国31个省市自治区,的城镇居民家庭平均每人全年消费性支出的八个主要指标(变量)数据,这八个变量是x1食品,x2衣着,x3家庭设备用品及服务,x4医疗保健,x5交通与通讯,x6娱乐教育文化服务,x7居住,x8杂项商品和服务

例. 某研究者收集了24种菌株,其中17~22号为已知的标准菌株,它们分别取自牛、羊、犬、猪、鼠、绵羊,其他的为xx菌株。测得各菌株的16种脂肪酸百分含量,试作样品聚类分析,以便了解哪些为止菌株与已知的标准菌株在全部指标上最为接近。

#用sas中相同的数据源,输入数据,列名称是x1-x8,行名称是1-30的序号
y <- read.csv("cluster2.csv")
#生成距离结构
bacterium <- dist(scale(y))  #method缺省值默认是Euclide距离,scale函数先将y作标准化变换
#用四种不同的距离方法生成系统聚类
hc1<-hclust(bacterium, "complete")  #最长距离法
hc2<-hclust(bacterium, "average")   #类平均法
hc3<-hclust(bacterium, "centroid")  #重心法
hc4<-hclust(bacterium, "ward.D2")      #离差平方和法
#以上聚类模型画图

* 2.4.1 rect.hclust()函数,根据谱系图,结合实际情况选定类别个数*

k <- 3   #根据谱系图,结合实际情况,自行选定类别个数
#生成两行一列  图像距离边界的距离
opar<-par(mfrow=c(2,1), mar=c(2,4,2,2))
#hang是表明谱系图中各类所在的位置 当hang取负值时,谱系图中的类从底部画起  生成谱系图
plot(hc1,hang=-1);re1<-rect.hclust(hc1,k,border="red")  #将分类结果分成5类 用红色矩形笔迹标记
plot(hc2,hang=-1);re2<-rect.hclust(hc2,k,border="red")
#在活动设备中返回所有图形参数和他们的值
par(opar)
opar<-par(mfrow=c(2,1), mar=c(2,4,2,2))
plot(hc3,hang=-1);re3<-rect.hclust(hc3,k,border="red")
plot(hc4,hang=-1);re4<-rect.hclust(hc4,k,border="red")
par(opar)

由结果的谱系图看,k=3时的最长距离法分类较为合理,分类结果是:
第一类:3、4、5、7、8、12、14、15、16、17、18、22、23、24、26、27、28、29、30; 第二类:1、2、6、10、11、25; 第三类:9、13、19、20、21

* 2.4.2 NbClust包确定类别个数*

#library(NbClust)
#默认index参数为all,会报错,出现极小值需要设置tolerance。但是这个函数过于复杂,不作手动修改
#nc <- NbClust(scale(y),min.nc=2,max.nc=8,method = "average")
#index=“hubert”,通过图形判断类别个数
nc <- NbClust(scale(y),min.nc=2,max.nc=8,method = "average",index = "hubert")

没有查找到Hubert统计值的具体含义,猜想左边图k=3时极小值,右图k=3到k=3+1有明显下降趋势,所以设置k=3.


3.动态聚类法(这里介绍的是用K-均值方法的kmeans()函数)例5. K-均值法作cluster2的聚类分析

系统聚类法以此形成类之后就不能改变,这就要求一次分类分得比较准确,对分类的方法要求较高,相应的计算量也会增大。尤其是对于大样本问题,需要很长的计算时间,还会占据足够大的计算机内存。基于这种情况,产生了动态聚类,即动态聚类法。

 动态聚类法又称逐步聚类法,其基本思想是,开始先粗略的分一下类,然后按照某种最优原则修改不合理的分类,直至类分得比较合理为止,形成最终的分类结果。这种方法具有计算量较小,占计算机内存较少和方法简单的优点,适用于大样本的Q型聚类分析。

 这里介绍用于动态聚类的R函数kmeans()函数,它采用的是K-均值方法。针对连续变量,也可处理有序分类变量,运算很快,但需要指定类别数。K-均值聚类法不会自动对数据进行标准化处理,需要先自己手动进行标准化分析

 kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong","Lloyd","Forgy","MacQueen"))

其中x是由数据构成的矩阵或数据框,centers是聚类的个数或者是初始类的中心,iter.max为最大迭代次数(缺省值为10),nstart随机集合的个数(当centers为聚类的个数时),algorithm为动态聚类的算法(缺省值为Hartigan-Wong方法)

3.1 令类的个数k=5作聚类分析

与例4.一样,为消除数据数量级的影响,先对数据作标准化处理,然后再用kmeans()函数作动态聚类,为与前面的方法作比较,类的个数选为5

y <- read.csv("cluster2.csv")
#算法选择Hartigan-Wong方法,即缺省状态
km <- kmeans(scale(y),5,nstart = 20);km
#便于看出聚类后的分类情况,sort()函数对分类情况排序
sort(km$cluster)
library(fpc)
plotcluster(scale(y), km$cluster)    #生成聚类图

“cluster”是一个整数向量,用于表示记录所属的聚类
“centers”是一个矩阵,表示每聚类中各个变量的中心点
“totss”表示所生成聚类的总体距离平方和
“withinss”表示各个聚类组内的距离平方和
“tot.withinss”表示聚类组内的距离平方和总量
“betweenss”表示聚类组间的聚类平方和总量
“size”表示每个聚类组中成员的数量

(between_SS / total_SS = 80.9 %),组间的距离平方和占了整体距离平方和的的80.9 %,也就是说各个聚类间的距离做到了最大

结合实际情况17-22为标准类,发现k=5并不符合实际情况。

3.2 类别个数k的选择

在SAS中PROC CLUSTER会在输出聚类结果的同时还是输出一大坨统计量或者伪统计量,主要是这四个:
RSQ、SPRSQ、PSF以及PST2,分别指的是R^2、半偏R^2(伪R^2)、伪F和伪t^2 。

先简单介绍下这四个量,如果把样本分为k个类,R2统计量的思想其实和回归分析中的可决系数系数,即类间偏差平方和的总和与总离差平方总和的比值,如果值越大就说明k个类越能够区分开,即聚类效果越好。但需要注意的是,跟回归中类似,R2的值总是随着k的减少而减小,也就是说单纯的根据R2来判断是没有意义,因此我们更关注的是他的变化情况,如果从k到k-1有非常显著的下降,那么可以认为分为k类是比较合适。基于此有人就又提出了半偏R2统计量,其实就是相邻两个R2的差值。F的值越大分类效果越显著,但唯一的缺点是他只是看起来像F统计量,但实际上却不服从F分布。当然伪t2同样如此。
数学公式参考网页 https://www.52ml.net/8663.html/comment-page-1#comment-185

下面提供上述统计量的计算和图像

* 3.2.1 先看within-cluster sum of squares组内平方和的趋势图*

y <- read.csv("cluster2.csv")
mydata <- y
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
  for (i in 2:13) wss[i] <- sum(kmeans(mydata,centers=i)$withinss)
###这里的wss(within-cluster sum of squares)是组内平方和
plot(1:13, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares")

* 3.2.2 R方和伪R方*

#先对k=2的时候计算,再构造循环,计算k=1-7的情况,并画图
#分类个数i为2时,R方的公式为:
R2 <- kmeans(mydata,centers=2)$betweenss / kmeans(mydata,centers=2)$tot.withinss
   for (i in 2:7)R2[i] <- kmeans(mydata,centers=i)$betweenss / kmeans(mydata,centers=i)$tot.withinss
fakeR2 <- R2[2]-R2[1]
   for (i in 2:7)fakeR2[i] <- R2[i]-R2[i-1]
plot(R2,type="b",xlab="Number of Clusters", ylab="R Square")
plot(fakeR2,type="b",xlab="Number of Clusters", ylab="Fake R Square")

* 3.2.3 伪F和伪t^2*

#先对k=2的时候计算,再构造循环,计算k=1-7的情况,并画图
fakeF <- 1 -  kmeans(mydata,centers=2)$betweenss*(nrow(mydata)-2) /
             (kmeans(mydata,centers=2)$tot.withinss-kmeans(mydata,centers=2)$betweenss)*(2-1)
   for (i in 2:7)fakeF[i] <- 1 -  kmeans(mydata,centers=i)$betweenss*(nrow(mydata)-i) /
                              (kmeans(mydata,centers=i)$tot.withinss-kmeans(mydata,centers=i)$betweenss)*(i-1)
#伪t方没有找到计算公式,略
plot(fakeF,type="b",xlab="Number of Clusters", ylab="fake F")

* 3.2.4 结合以上统计量一起画图比较*

#四行一列的图,调整图形左右上下的间距大小
opar<-par(mfrow=c(4,1), mar=c(4,5,3,2))
plot(1:13, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares")
plot(R2,type="b",xlab="Number of Clusters", ylab="R Square")
plot(fakeR2,type="b",xlab="Number of Clusters", ylab="Fake R Square")
plot(fakeF,type="b",xlab="Number of Clusters", ylab="fake F")
par(opar)

图一wws看出,分类个数为2-4个。从3类变成2类时,伪R方急剧减小,聚类结果的解释度迅速下降,说明2类不合适,3类较合适。此时wss趋于平稳,R方也在3类变成2类时明显波动,伪F值也是波动明显,最后选定分类个数k=3

* 3.2.5 NbClust包来确定类别数量*

library(NbClust)
#默认index参数为all,会报错,出现极小值需要设置tolerance。但是这个函数过于复杂,不作手动修改
#nc <- NbClust(scale(y),min.nc=2,max.nc=15,method = "kmeans")
#index=“hubert”,通过图形判断类别个数
nc <- NbClust(scale(y),min.nc=2,max.nc=15,method = "kmeans",index = "hubert")

没有查找到Hubert统计值的具体含义,猜想左边图k=3时极小值,右图k=3到k=3+1有明显上升趋势,所以设置k=3.


3.3 选择3.2里的类别个数,类的个数k=3作聚类分析**

y <- read.csv("cluster2.csv")
#算法选择Hartigan-Wong方法,即缺省状态
km <- kmeans(scale(y),centers = 3, nstart = 20);km
#便于看出聚类后的分类情况,sort()函数对分类情况排序
sort(km$cluster)
library(fpc)
plotcluster(scale(y), km$cluster)   #生成聚类图

24个菌株分为三类,第一类:1、2、3、4、5、7、9、10、11、16、18、22
第二类:6、8、12、13、14、15、17、19、21、23、24
第三类:20
和张佳玉sas的结果完全一致。


4. 结果导出(对应sas三个过程)

* 4.1 例1.(2.1) cluster1数据的对变量分类* (k=3)

x <- read.csv("cluster1.csv")
r <- cor(x)
d<-as.dist(1-r) 
hc1<-hclust(d, "single"); hc2<-hclust(d, "complete")
hc3<-hclust(d, "median"); hc4<-hclust(d, "mcquitty")
n1 <- cutree(hc1,k=3);n2 <- cutree(hc2,k=3);n3 <- cutree(hc3,k=3);n4 <- cutree(hc4,k=3)
n1=as.data.frame(n1);n2=as.data.frame(n2);n3=as.data.frame(n3);n4=as.data.frame(n4)
n <- rbind(t(n1),t(n2),t(n3),t(n4))
x[31,] <- n[1,];x[32,] <- n[2,];x[33,] <- n[3,];x[34,] <- n[4,]
write.csv(x,"cluster1_result.csv")

* 4.2 例4.(2.4) cluster2数据对样本分类* (k=3)

y <- read.csv("cluster2.csv")
bacterium <- dist(scale(y))
hc1<-hclust(bacterium, "complete");hc2<-hclust(bacterium, "average")
hc3<-hclust(bacterium, "centroid");hc4<-hclust(bacterium, "ward.D2")
n1 <- cutree(hc1,k=3);n2 <- cutree(hc2,k=3);n3 <- cutree(hc3,k=3);n4 <- cutree(hc4,k=3)
n1=as.data.frame(n1);n2=as.data.frame(n2);n3=as.data.frame(n3);n4=as.data.frame(n4)
n <- cbind(n1,n2,n3,n4)
y$n1 <- n$n1;y$n2 <- n$n2;y$n3 <- n$n3;y$n4 <- n$n4
write.csv(y,"cluster2_result1.csv")

* 4.3 例5.(3.3) K-均值法作cluster2的聚类分析* (k=3)

y <- read.csv("cluster2.csv")
km <- kmeans(scale(y),centers = 3, nstart = 20)
y$cluster <- km$cluster
write.csv(y,"cluster2_result2.csv")

n1,n2,n3,n4(31,32,33,34)分别为最短距离法,最长距离法,中间距离法,Mcquitty相似法的分类结果