python用层次聚类对鸢尾花数据集进行聚类并绘制聚类树。

原创

mob649e8169b366 2023-09-11 07:14:12 ©著作权

文章标签 数据集聚类层次聚类 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8169b366的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python用层次聚类对鸢尾花数据集进行聚类并绘制聚类树

概述

本文将引导你使用Python的层次聚类算法对鸢尾花数据集进行聚类，并使用绘图工具绘制聚类树。层次聚类是一种无监督学习算法，用于将数据集分成不同的簇或群组，每个簇内的样本具有相似的特征。

步骤

下面是实现这个任务的几个步骤：

步骤	描述
步骤 1	导入需要的库
步骤 2	加载鸢尾花数据集
步骤 3	特征提取
步骤 4	层次聚类
步骤 5	绘制聚类树

步骤详解

步骤 1: 导入需要的库

首先，我们需要导入一些Python库，包括pandas用于数据处理，matplotlib.pyplot用于绘图，以及scipy.cluster.hierarchy用于层次聚类。

import pandas as pd
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage

步骤 2: 加载鸢尾花数据集

接下来，我们需要加载鸢尾花数据集。鸢尾花数据集是一个常用的机器学习数据集，包含了150个样本，每个样本有4个特征，分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。数据集已经被广泛研究，并且有标记的类别信息。

iris = pd.read_csv('iris.csv')

步骤 3: 特征提取

在进行层次聚类之前，我们需要从数据集中提取特征。在这个例子中，我们选择使用花萼长度和花萼宽度作为特征。

X = iris[['sepal_length', 'sepal_width']]

步骤 4: 层次聚类

现在我们开始进行层次聚类。我们使用linkage函数来计算样本之间的距离，并使用ward方法来确定簇的合并方式。linkage函数返回一个矩阵，表示每次合并的两个簇之间的距离。

Z = linkage(X, method='ward')

步骤 5: 绘制聚类树

最后，我们使用dendrogram函数来绘制聚类树。

plt.figure(figsize=(10, 5))
dendrogram(Z)
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('Samples')
plt.ylabel('Distance')
plt.show()

类图

下面是本文所使用的类的类图：

classDiagram
    class pandas <<library>> {
        read_csv()
    }
    class matplotlib.pyplot <<library>> {
        figure()
        title()
        xlabel()
        ylabel()
        show()
    }
    class scipy.cluster.hierarchy <<library>> {
        dendrogram()
        linkage()
    }
    class IrisData {
        sepal_length
        sepal_width
    }
    class DataFrame {
        [[]]
    }
    pandas --> DataFrame
    matplotlib.pyplot --> figure
    matplotlib.pyplot --> title
    matplotlib.pyplot --> xlabel
    matplotlib.pyplot --> ylabel
    matplotlib.pyplot --> show
    scipy.cluster.hierarchy --> dendrogram
    scipy.cluster.hierarchy --> linkage