通过上文我们了解到一些模糊的基本概念,那模糊到底能干什么呢?模糊理论主要用于模糊(识别)分类、模糊聚类和模糊综合评价,这里咱们讨论模糊聚类。
聚类和分类很相似,只是聚类没有预先设定好的label,而通过论域内计算选定label。和之前一样,在具体讨论前我们也要有一些基础铺垫,我们这里的基础是模糊关系。
一、模糊关系:
A、B为两个非空集合(非模糊集合),AB直积中的一个模糊集合R称为A到B的一个模糊关系,记作RAxB。其中直积(两个集合元素的所有组合)为:
AxB = {(a,b)|a∈A,b∈B}
定义在AxB上的模糊关系RAxB可以用模糊矩阵表示:
模糊矩阵R中元素rij=μr(ai,bj)表示论域中A的i元素与B的j元素对于模糊关系R的隶属程度。
模糊关系是定义在直积上的模糊集合,表征的是元素与元素的关系;当A=B时,称为A上的模糊关系。模糊关系有三种性质:自反性、对称性和传递性。
模糊相似关系:当模糊关系有自反性、对称性时,称为模糊相似关系
模糊等价关系:模糊关系有自反性、对称性、传递性时,称为模糊等价关系
二、模糊聚类:
模糊关系表示元素之间被表征的描述关系,通过关系计算可以实现模糊聚类。假设有四个区域三种污染物的测量水平如下所示:
X1 = [80 10 2]
X2 = [50 1 4]
X3 = [90 6 6]
X4 = [10 1 4]
(1) 数据标准化:数据间量纲不同,通常需要标准化消除量纲不同带来的计算差异
标准化公式(Mj表j列最大值):
(2) 构建模糊矩阵:将元素间的关系用矩阵表征出来,使用方法包括:相似度系数法(夹角余弦法、相关系数法)、距离法(Euclid距离、Hamming距离、Chebyshev距离)、贴近度法(最大最小法、算术平均法、几何平均法)
最大最小法:
(3) 求传递闭包:步骤二求出模糊相似关系阵,通过传递闭包法求出模糊等价关系阵
模糊矩阵做幂运算,当矩阵不再改变时,为等价关系
如R8=R4时,R4为等价关系阵。
(4) 动态聚类:指在不同水平下对数据进行聚类,水平给出的方法使用λ-截集
λ-截集:隶属度为λ的集合
三、实操:
(1) 数据标准化:
(2) 构建模糊相似阵:
(3) 传递得到等价阵:
(4) 取一个水平λ按λ值进行聚类
这里隶属度集为{0.53,0.62,0.63,1},可以取这几个值进行聚类。如我们选取λ=0.62,则
因此我们认为在0.62水平上,x1、x2、x3是一个类别的。