模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_模糊k均值聚类算法在经济研究中的应用


通过上文我们了解到一些模糊的基本概念,那模糊到底能干什么呢?模糊理论主要用于模糊(识别)分类、模糊聚类和模糊综合评价,这里咱们讨论模糊聚类

聚类和分类很相似,只是聚类没有预先设定好的label,而通过论域内计算选定label。和之前一样,在具体讨论前我们也要有一些基础铺垫,我们这里的基础是模糊关系

一、模糊关系:

A、B为两个非空集合(非模糊集合),AB直积中的一个模糊集合R称为A到B的一个模糊关系,记作RAxB。其中直积(两个集合元素的所有组合)为:

AxB = {(a,b)|a∈A,b∈B}

定义在AxB上的模糊关系RAxB可以用模糊矩阵表示:


模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_模糊聚类_02


模糊矩阵R中元素rij=μr(ai,bj)表示论域中A的i元素与B的j元素对于模糊关系R的隶属程度。

模糊关系是定义在直积上的模糊集合,表征的是元素与元素的关系;当A=B时,称为A上的模糊关系。模糊关系有三种性质:自反性、对称性和传递性。

模糊相似关系:当模糊关系有自反性、对称性时,称为模糊相似关系

模糊等价关系:模糊关系有自反性、对称性、传递性时,称为模糊等价关系

二、模糊聚类:

模糊关系表示元素之间被表征的描述关系,通过关系计算可以实现模糊聚类。假设有四个区域三种污染物的测量水平如下所示:

X1 = [80 10 2]

X2 = [50 1 4]

X3 = [90 6 6]

X4 = [10 1 4]

(1) 数据标准化:数据间量纲不同,通常需要标准化消除量纲不同带来的计算差异

标准化公式(Mj表j列最大值):


模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_模糊聚类_03


(2) 构建模糊矩阵:将元素间的关系用矩阵表征出来,使用方法包括:相似度系数法(夹角余弦法、相关系数法)、距离法(Euclid距离、Hamming距离、Chebyshev距离)、贴近度法(最大最小法、算术平均法、几何平均法)

最大最小法:


模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_等价关系_04


(3) 求传递闭包:步骤二求出模糊相似关系阵,通过传递闭包法求出模糊等价关系阵

模糊矩阵做幂运算,当矩阵不再改变时,为等价关系

如R8=R4时,R4为等价关系阵。

(4) 动态聚类:指在不同水平下对数据进行聚类,水平给出的方法使用λ-截集

λ-截集:隶属度为λ的集合

三、实操:

(1) 数据标准化:


模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_等价关系_05


(2) 构建模糊相似阵:


模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_聚类_06


(3) 传递得到等价阵:


模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_传递闭包_07


(4) 取一个水平λ按λ值进行聚类

这里隶属度集为{0.53,0.62,0.63,1},可以取这几个值进行聚类。如我们选取λ=0.62,则


模糊k均值聚类算法在经济研究中的应用 模糊聚类评价指标_传递闭包_08


因此我们认为在0.62水平上,x1、x2、x3是一个类别的。