Python聚类算法代码及案例

原创

mob649e8157ebce 2023-08-01 12:37:08 ©著作权

文章标签 聚类聚类算法 python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8157ebce的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python聚类算法代码及案例

1. 简介

聚类算法是一种无监督学习方法，用于将数据集中的样本分为不同的组，每个组内的样本具有相似的特征。Python提供了许多用于聚类的库和算法，如scikit-learn、K-means和DBSCAN等。

本文将教你如何使用Python实现聚类算法，并通过一个案例来展示其应用。

2. 聚类算法流程

下面是实施聚类算法的一般步骤：

步骤	描述
1. 收集数据	从数据源中获取需要聚类的数据集
2. 数据预处理	对数据进行清洗、缺失值处理和特征标准化等预处理
3. 选择算法	选择适合问题的聚类算法
4. 训练模型	使用选定的算法对数据进行训练
5. 聚类结果	根据模型输出的结果，对数据进行聚类
6. 结果评估	使用评估指标评估聚类效果
7. 结果可视化	将聚类结果可视化展示

3. 代码实现

1. 收集数据

首先，我们需要从数据源中获取需要聚类的数据集。可以使用Pandas库将数据加载到DataFrame中。

import pandas as pd

# 从CSV文件加载数据集
data = pd.read_csv('data.csv')

2. 数据预处理

在进行聚类之前，我们需要对数据进行预处理，包括清洗数据、处理缺失值和特征标准化等操作。下面是一些常用的数据预处理方法：

# 清洗数据
data.dropna()

# 缺失值处理
data.fillna(0)

# 特征标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

3. 选择算法

选择适合问题的聚类算法非常重要。常见的聚类算法包括K-means、层次聚类和DBSCAN等。这里以K-means为例：

from sklearn.cluster import KMeans

# 创建K-means模型
kmeans = KMeans(n_clusters=3)

4. 训练模型

使用选定的算法对数据进行训练：

# 训练K-means模型
kmeans.fit(data_scaled)

5. 聚类结果

根据训练好的模型，对数据进行聚类：

# 获取聚类结果
labels = kmeans.labels_

# 将聚类结果添加到原始数据集
data['cluster'] = labels

6. 结果评估

聚类结果的评估可以使用各种指标，如轮廓系数和Calinski-Harabasz指数等。以轮廓系数为例：

from sklearn.metrics import silhouette_score

# 计算轮廓系数
silhouette_score(data_scaled, labels)

7. 结果可视化

最后，我们可以使用Matplotlib等库将聚类结果可视化展示：

import matplotlib.pyplot as plt

# 绘制散点图
plt.scatter(data['x'], data['y'], c=data['cluster'])
plt.show()

4. 案例分析

假设我们有一个包含(x, y)坐标的数据集，我们希望将数据集分为3个不同的簇。首先，我们收集了数据，并进行了预处理，然后选择K-means算法进行聚类。训练模型后，我们使用轮廓系数评估了聚类结果，并将结果可视化展示。

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt