「AI科技」机器学习算法之K-means算法原理及缺点改进思路

转载

SAP虾客 2019-01-07 08:00:53

K-means聚类算法简介

K-means 聚类算法，是基于距离的一种无监督式的学习算法。在1967年首次由MacQueen提出，常用于模式识别和数据挖掘中，其目的是对一组数据进行几何等价划分进行分类。

「AI科技」机器学习算法之K-means算法原理及缺点改进思路_经验分享

K-means算法是使用得最为广泛的一个算法，其应用场景遍及医学、经济学、行为学、决策科学等领域。算法以样本均值（质心）代表该类，定义简单具有清晰明了的几何和统计意义。

K-means聚类算法原理

算法的基本思路：

算法的工作流程

「AI科技」机器学习算法之K-means算法原理及缺点改进思路_经验分享_02

距离算法及准则函数

一般情况下我们都是以欧拉距离公式来计算两个数据对象间的距离，但还有其他的一些方法可以用于计算，算法如下：

①明氏距离（Minkowski Distance）

「AI科技」机器学习算法之K-means算法原理及缺点改进思路_经验分享_03

这里的xi=( i1，xi2，…，xip)和xj=( j1，xj2，…，xjp)是两个p维的数据对象并且 i≠j。

②欧式距离（Euclidean Distance）

「AI科技」机器学习算法之K-means算法原理及缺点改进思路_经验分享_04

当明氏距离中q=2时，公式1即欧式距离。

③兰式距离（Canberra Distance）：

「AI科技」机器学习算法之K-means算法原理及缺点改进思路_经验分享_05

（2）准则函数E

对于K-means算法，通常使用准则函数E，也就是误差平方和（Sum of Squared Error，SSE）作为度量聚类质量的目标函数。

「AI科技」机器学习算法之K-means算法原理及缺点改进思路_经验分享_06

其中，d( )表示两个对象之间的距离，可以利用明氏、欧式或兰氏距离求得。

对于相同的k值，更小的SSE说明簇中对象越集中。对于不同的k值，越大的k值应该越小的SSE。

K-means聚类算法特点

K-means算法优点：

K-means算法缺点：

「AI科技」机器学习算法之K-means算法原理及缺点改进思路_经验分享_07

针对以上确定，最后两点属于数据问题，无法解决，但是前两点还是可以进行改进的。针对第一个缺点，可以通过肘部算法来确定K的数量，具体步骤如下：

针对第二个缺点，可以对初始聚类中心的选择进行优化。优化思想为：选择批次距离尽可能远的K个点。具体选择步骤如下：

后续将通过python代码对K-means聚类算法进行实现。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客