迟到的周更,下次一定!
下周补充一个介绍篇的评价指标(分上下,先说用的多的评价指标,然后我再查查不常见的)

算法篇——系统聚类(或层次聚类)

始发于:2020-6-9  最新更改:2020-6-9

一、扯
讲系统聚类,优先看一下它的应用前景,系统聚类用的多吗?用的方面广吗?答案都是否定的。那我们学它干什么?我相信学任何一个东西,学会了应该没有坏处,一方面呢,技多不压身,另一方面我们有时候学一个人东西,过了很长时间,在另一个方面研究东西,或者做东西的时候,一些想法,骚操作,可能就来自你之前学过的被称为“没用的”知识。

问:系统聚类为啥用的不多?
答:系统聚类适合小样本数据集,对于大样本系统聚类的运算复杂度成倍叠加,这导致这个方法用的时候不多。现在大多数都是在分析中等量样本集和大数据样本集。

二、系统聚类

系统聚类的原理,比如在一个平面,上面有5个点,首先把每一个点看做一类,我们就有5个类簇,每个类簇有1个点。如下图:

系统聚类 python实现_聚类

第一次:

找到两个距离最近的点,如图点3与点5,把这两个分到一类。那么现在呢 就有4个类簇。如下图:

系统聚类 python实现_类簇_02


第二次:

从这里开始,根据新合并的类簇整体到其他点的距离怎么求,诞生了各种各样的系统聚类方法

定义:

①四个类name:1,2,4,3+5

②dist(name1,name2):类name1与类name2的距离

最短距离法:例:3+5与4的距离=min{dist(4,3),dist(4,5)}

最长距离法:例:3+5与4的距离=max{dist(4,3),dist(4,5)}

类平均法:例:3+5与4的距离=[dist(4,3)+dist(4,5)]/n(n为分子相加的距离个数)

重心法:在每一个类簇找一个中心来代替整体,重心法大多情况是取均值,比如一个类簇两个点((3,5),(7,1))他们的重心就是((3+7)/2,(5+1)/2)

等等,还有很多方法可以拓展。

三、研究现状

系统聚类适合小样本数据集,所以现在对它做的研究大多为小样本。比如药方组成成分,鉴别某植物的产地,那么这些小样本究竟有多小?大概在多则50左右,少则7,8,个。