python kmeans 51CTO

原创

mob649e8163f390 2024-05-01 06:47:51 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e8163f390的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python进行K均值聚类

K均值聚类（K-means clustering）是一种常见的无监督学习算法，它可以将数据集中的样本划分为K个不同的簇。这种算法通过迭代优化来找到最佳的簇中心，使得每个样本点到所属簇中心的距离尽可能小。在本文中，我们将介绍如何使用Python中的sklearn库进行K均值聚类，并提供一个简单的代码示例。

K均值聚类的原理

K均值聚类的原理非常简单，它主要包括以下几个步骤：

随机初始化K个簇中心。
将每个样本点分配到距离最近的簇中心。
根据当前簇分配重新计算每个簇的中心。
重复步骤2和步骤3，直到簇中心不再发生变化或者达到最大迭代次数。

Python实现K均值聚类

在Python中，我们可以使用sklearn库中的KMeans类来实现K均值聚类。下面是一个简单的示例代码，演示了如何使用KMeans对一个随机生成的数据集进行聚类。

# 引用形式的描述信息
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt

# 生成随机数据集
np.random.seed(0)
X = np.random.rand(100, 2)

# 聚类
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)
plt.show()

在上面的代码中，我们首先生成了一个包含100个样本点的二维随机数据集。然后使用KMeans类创建了一个拥有3个簇的K均值模型，并对数据集进行了聚类。最后，我们使用散点图可视化了聚类结果，其中不同颜色代表不同的簇，红色点表示每个簇的中心。