python 鸢尾花层次聚类代码

原创

mob64ca12dd455e 2023-12-09 06:29:06 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12dd455e的原创作品，请联系作者获取转载授权，否则将追究法律责任

层次聚类介绍

层次聚类（Hierarchical Clustering）是一种常用的聚类算法，它将数据集分成多个层次化的簇群。这种聚类方法不需要事先指定聚类的数量，而是通过计算数据间的相似性或距离来构建聚类结果。层次聚类可以用于各种领域，如生物学、社交网络分析以及市场调研等。

本文将以Python语言为例，介绍如何使用层次聚类算法对鸢尾花数据集进行聚类分析。

鸢尾花数据集

鸢尾花数据集是机器学习领域中最有名的数据集之一。它包含了150个样本，每个样本有4个特征：花萼长度、花萼宽度、花瓣长度以及花瓣宽度。这四个特征被用来描述三个不同种类的鸢尾花：Setosa、Versicolor和Virginica。

我们将使用鸢尾花数据集来展示层次聚类算法的使用。

Python代码实现

首先，我们需要导入必要的库和数据集：

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

接下来，我们使用层次聚类算法对数据集进行聚类分析：

from sklearn.cluster import AgglomerativeClustering

# 创建层次聚类模型
model = AgglomerativeClustering(n_clusters=3)

# 对数据进行聚类
clusters = model.fit_predict(X)

在上述代码中，我们使用AgglomerativeClustering类创建了一个层次聚类模型，并指定了聚类的数量为3。然后，我们调用fit_predict方法对数据集X进行聚类，并将聚类结果存储在clusters变量中。

现在，我们可以将聚类结果可视化出来：

import matplotlib.pyplot as plt

# 绘制鸢尾花数据集的花萼长度和花萼宽度
plt.scatter(X[:, 0], X[:, 1], c=clusters)
plt.xlabel('Sepal Length')
plt.ylabel('Sepal Width')
plt.title('Hierarchical Clustering of Iris Dataset')
plt.show()

上述代码中，我们使用plt.scatter函数将数据集的花萼长度和花萼宽度绘制成散点图，并根据聚类结果对散点进行着色。最后，我们添加了坐标轴标签和标题，并通过plt.show函数显示图形。

结果分析

通过层次聚类算法，我们将鸢尾花数据集分成了三个簇群。从可视化结果中可以看出，不同簇群的样本点在花萼长度和花萼宽度上具有明显的区分度。

总结

层次聚类是一种常用的聚类算法，它可以帮助我们将数据集分成多个层次化的簇群。本文以Python语言为例，介绍了如何使用层次聚类算法对鸢尾花数据集进行聚类分析。通过代码示例和可视化结果，我们展示了层次聚类算法的使用过程和聚类结果。无论是在生物学、社交网络分析还是市场调研等领域，层次聚类都是一种强大的工具，可以帮助我们发现数据集中的潜在结构和模式。