高斯混合模型 (GMM)

高斯混合模型是概率模型,其假设所有样本是从具有未知参数的有限数量的高斯分布的混合生成的。

它属于软群集算法组,其中每个数据点都属于数据集中存在的每个群集,但每个群集的成员资格级别不同。此成员资格被指定为属于某个群集的概率,范围从0到1。

例如,突出显示的点将同时属于集群A和B,但由于其与它的接近程度而具有更高的集群A的成员资格。




高斯混合模型 概率 高斯混合模型gmm_聚类


GMM假设每个聚类遵循概率分布,可以是高斯分布或正态分布。它是K-Means聚类的推广,包括有关数据的协方差结构以及潜在高斯中心的信息。


高斯混合模型 概率 高斯混合模型gmm_聚类_02


一维GMM分布

GMM将在数据集中搜索高斯分布并将它们混合。


高斯混合模型 概率 高斯混合模型gmm_高斯混合模型 概率_03


二维GMM

当具有的多变量分布如下时,对于数据集分布的每个轴,平均中心将是μ+σ。


高斯混合模型 概率 高斯混合模型gmm_数据集_04


GMM 算法

它是一种期望最大化算法,该过程可概括如下:

1.初始化K高斯分布,可通过μ(平均值)和σ(标准偏差)值来实现。也可从数据集(天真方法)或应用K-Means中获取。

2.软聚类数据:这是"期望"阶段,其中所有数据点将分配给具有各自成员级别的每个聚类。

3.重新估计高斯分布:这是"最大化"阶段,该阶段会对期望进行检查并且将其用于计算高斯的新参数中:新μ和σ。

4.评估数据的对数似然性以检查收敛。日志的相似度越高,我们创建的模型的混合可能越适合数据集。所以,这是最大化的功能。

5.从步骤2开始重复直到收敛。

GMM 的优点

它是一种软聚类方法,可将样本成员分配给多个聚类。这一特性使其成为学习混合模型的最快算法。

集群的数量和形状具有很高的灵活性。

GMM 的缺点

它对初始值非常敏感,这将极大地影响其性能。

GMM可能会收敛到局部最小值,这将是次优解决方案。

当每个混合物的点数不足时,算法会发散并找到具有无限可能性的解,除非人为地规范数据点之间的协方差。