kmeans聚类算法python数据集 python的kmeans聚类结果分析

转载

bingfeng 2023-08-14 23:00:23

文章标签 kmeans聚类算法python数据集数据挖掘 python 算法数据 文章分类 Python 后端开发

在开始k-means算法之前，我们先了解一下什么是聚类分析？

聚类分析就是将数据划分成有意义或有用的组（簇），根据在数据中发现的描述对象及其关系的信息，将数据对象分组。其目标是，组内的对象相互之间是相似的，而不同组中的对象是不同的。

所以很明确，这个算法是为了分类数据的，一般适用于市场细分、目标顾客定位、生物种群划分等邻域

所以，k-means算法怎么理解呢？

其中的k是聚类算法当中类的个数。 means指的就是均值算法。

k-means是采用均值算法把数据分成K个类的硬聚类算法！
对于连续型属性具有较好的聚类效果，不适合处理离散型属性。

kmeans聚类算法python数据集 python的kmeans聚类结果分析_数据

以该图为例，进行聚类分析：1、首先，设定k=2，表示需要聚成两类，随机取两个点作为质心，二者之间的距离就用欧几里得距离，将与质心更近的点归为一类

kmeans聚类算法python数据集 python的kmeans聚类结果分析_算法_02

2、根据第一次分类的点，求出每个分类的平均点

kmeans聚类算法python数据集 python的kmeans聚类结果分析_python_03

3、再以每个分类的平均点作为质心，重新进行聚类，重复此过程，直至两次迭代所得的质心点的位置不发生变化即表示分类结束

kmeans聚类算法python数据集 python的kmeans聚类结果分析_算法_04

以下为我的python实现：

import random
import numpy as np

data = [
        [1,4],
        [1,5],
        [2,4],
        [2,5],
        [2,6],
        [4,1],
        [4,2],
        [5,1],
        [5,2],
        [6,2],
    ]
k = 2
# 计算两点之间的距离
def count_dist(x,y):
    result = 0
    for i in range(len(x)):
        result+=(x[i]-y[i])**2
    return result**0.5
# 获取中心点
def get_centerPoint(arr):
    arr = np.array(arr)
    point = []
    # 遍历 第一行数组的个数 也就是列数
    # 计算 每列元素的平均值
    for i in range(len(arr[0,:])): point.append(sum(arr[:,i])/len(arr[:,i]))
    print('point:',point)
    return point

def a(init_points):
    print('init_points:',init_points)
    arr1 = []
    arr2 = []
    for i in range(len(data)):
        item_arr = []
        for i2 in range(k):
            item_arr.append(count_dist(data[i], init_points[i2]))
        max_dist = max(item_arr)
        max_index = item_arr.index(max_dist)
        # 如果最大的index是0，说明离第二个点更近
        arr2.append(data[i]) if max_index == 0 else arr1.append(data[i])
    point_arr = [get_centerPoint(arr1),get_centerPoint(arr2)]
    # 为什么[[4.8, 1.6], [1.6, 4.8]]会输出两次，因为第一次输出与init_points对比，第一次对比肯定是不同的
    # 第二次point_arr和init_points都是[[4.8, 1.6], [1.6, 4.8]]，所以会再输出一次
    print('point_arr:',point_arr)
    for i in range(len(point_arr)):
        # print(point_arr,init_points,i)
        if point_arr[i] != init_points[i]:
            a(point_arr)
            break


if __name__ == '__main__':

    init_points = []
    # 随机选取k个样本作为初始值
    data_copy = data[:]
    for i in range(k):
        random_index = random.randint(0, len(data_copy) - 1)
        init_points.append(data_copy[random_index])
        # 选过之后，把这个元素弹出，防止重复
        data_copy.pop(random_index)

    a(init_points)

跑一遍代码发现，结果正是我们想要的

kmeans聚类算法python数据集 python的kmeans聚类结果分析_kmeans聚类算法python数据集_05