在开始k-means算法之前,我们先了解一下什么是聚类分析?
聚类分析就是将数据划分成有意义或有用的组(簇),根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。
所以很明确,这个算法是为了分类数据的,一般适用于市场细分、目标顾客定位、生物种群划分等邻域
所以,k-means算法怎么理解呢?
其中的k是聚类算法当中类的个数。 means指的就是均值算法。
k-means是采用均值算法把数据分成K个类的硬聚类算法!
对于连续型属性具有较好的聚类效果,不适合处理离散型属性。
以该图为例,进行聚类分析:1、首先,设定k=2,表示需要聚成两类,随机取两个点作为质心,二者之间的距离就用欧几里得距离,将与质心更近的点归为一类
2、根据第一次分类的点,求出每个分类的平均点
3、再以每个分类的平均点作为质心,重新进行聚类,重复此过程,直至两次迭代所得的质心点的位置不发生变化即表示分类结束
以下为我的python实现:
import random
import numpy as np
data = [
[1,4],
[1,5],
[2,4],
[2,5],
[2,6],
[4,1],
[4,2],
[5,1],
[5,2],
[6,2],
]
k = 2
# 计算两点之间的距离
def count_dist(x,y):
result = 0
for i in range(len(x)):
result+=(x[i]-y[i])**2
return result**0.5
# 获取中心点
def get_centerPoint(arr):
arr = np.array(arr)
point = []
# 遍历 第一行数组的个数 也就是列数
# 计算 每列元素的平均值
for i in range(len(arr[0,:])): point.append(sum(arr[:,i])/len(arr[:,i]))
print('point:',point)
return point
def a(init_points):
print('init_points:',init_points)
arr1 = []
arr2 = []
for i in range(len(data)):
item_arr = []
for i2 in range(k):
item_arr.append(count_dist(data[i], init_points[i2]))
max_dist = max(item_arr)
max_index = item_arr.index(max_dist)
# 如果最大的index是0,说明离第二个点更近
arr2.append(data[i]) if max_index == 0 else arr1.append(data[i])
point_arr = [get_centerPoint(arr1),get_centerPoint(arr2)]
# 为什么[[4.8, 1.6], [1.6, 4.8]]会输出两次,因为第一次输出与init_points对比,第一次对比肯定是不同的
# 第二次point_arr和init_points都是[[4.8, 1.6], [1.6, 4.8]],所以会再输出一次
print('point_arr:',point_arr)
for i in range(len(point_arr)):
# print(point_arr,init_points,i)
if point_arr[i] != init_points[i]:
a(point_arr)
break
if __name__ == '__main__':
init_points = []
# 随机选取k个样本作为初始值
data_copy = data[:]
for i in range(k):
random_index = random.randint(0, len(data_copy) - 1)
init_points.append(data_copy[random_index])
# 选过之后,把这个元素弹出,防止重复
data_copy.pop(random_index)
a(init_points)
跑一遍代码发现,结果正是我们想要的
k-means的优缺点:
- 优点:
1.思想简单易行
2.时间复杂度接近线性
3.对大数据集,具有高效 性和可伸缩性
- 缺点:
1.依赖于初始均值的选择
2.须事先给定聚类数k值
3.对噪声和孤立数据敏感