kmeans聚类算法实现java

原创

mob64ca12f43142 2025-02-25 05:56:50 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f43142的原创作品，请联系作者获取转载授权，否则将追究法律责任

K-Means聚类算法在Java中的实现指南

K-Means是一种简单而有效的聚类算法，广泛应用于数据挖掘和机器学习领域。本文将引导你逐步实现K-Means聚类算法的Java代码，并解释每个步骤的细节。

实现流程概述

以下是实现K-Means算法的基本流程：

步骤	描述
1. 导入必要的库	导入Java中进行数学计算和数据存储的库
2. 数据准备	准备进行聚类的数据
3. 初始化聚类中心	随机选择K个数据点作为初始聚类中心
4. 分配数据点	根据距离将数据点分配给最近的聚类中心
5. 更新聚类中心	计算每个簇的均值并更新聚类中心
6. 重复步骤4和5	直到聚类中心不再变化或者达到最大迭代次数
7. 输出结果	输出最终的聚类结果

实现K-Means算法

1. 导入必要的库

在Java中，你需要导入一些基本的类库，以下是代码示例：

import java.util.ArrayList; // 用于存储数据点
import java.util.List; // List接口的支持
import java.util.Random; // 生成随机数

2. 数据准备

在这个示例中，我们将随机生成一些数据点来进行聚类：

class Point {
    double x;  // X坐标
    double y;  // Y坐标

    // 构造函数
    public Point(double x, double y) {
        this.x = x;
        this.y = y;
    }
}

// 生成数据点
public List<Point> generateData(int numPoints) {
    List<Point> points = new ArrayList<>();
    Random random = new Random();

    for (int i = 0; i < numPoints; i++) {
        points.add(new Point(random.nextDouble() * 100, random.nextDouble() * 100));
    }
    return points;
}

3. 初始化聚类中心

选择K个随机数据点作为初始聚类中心：

public List<Point> initializeCentroids(List<Point> points, int k) {
    List<Point> centroids = new ArrayList<>();
    Random random = new Random();

    while (centroids.size() < k) {
        Point randomPoint = points.get(random.nextInt(points.size()));
        if (!centroids.contains(randomPoint)) {
            centroids.add(randomPoint);
        }
    }
    return centroids;
}

4. 分配数据点

通过计算数据点与聚类中心的距离，分配数据点到最近的聚类中心：

public int findClosestCentroid(Point point, List<Point> centroids) {
    double minDistance = Double.MAX_VALUE;
    int closestIndex = 0;

    for (int i = 0; i < centroids.size(); i++) {
        double distance = Math.sqrt(Math.pow(point.x - centroids.get(i).x, 2) +
                Math.pow(point.y - centroids.get(i).y, 2));
        if (distance < minDistance) {
            minDistance = distance;
            closestIndex = i;
        }
    }
    return closestIndex; // 返回最近聚类中心的索引
}

5. 更新聚类中心

通过计算分配给同一聚类的数据点的均值来更新聚类中心：

public List<Point> updateCentroids(List<List<Point>> clusters) {
    List<Point> newCentroids = new ArrayList<>();

    for (List<Point> cluster : clusters) {
        double sumX = 0;
        double sumY = 0;

        for (Point point : cluster) {
            sumX += point.x;
            sumY += point.y;
        }
        newCentroids.add(new Point(sumX / cluster.size(), sumY / cluster.size()));
    }
    return newCentroids;
}

6. 重复步骤4和5

使用循环执行聚类，直到中心不再变化或达到最大迭代次数：

public List<List<Point>> kMeans(List<Point> points, int k, int maxIterations) {
    List<Point> centroids = initializeCentroids(points, k);
    List<List<Point>> clusters = new ArrayList<>();

    for (int i = 0; i < maxIterations; i++) {
        // 清空 clusters
        clusters.clear();
        for (int j = 0; j < k; j++) {
            clusters.add(new ArrayList<>()); // 创建 k 个簇
        }

        // 分配数据点
        for (Point point : points) {
            int closestIndex = findClosestCentroid(point, centroids);
            clusters.get(closestIndex).add(point); // 将点添加到对应的簇中
        }

        // 更新聚类中心
        List<Point> newCentroids = updateCentroids(clusters);

        // 检查聚类中心是否变化
        if (newCentroids.equals(centroids)) {
            break; // 如果没有变化，则结束
        }
        centroids = newCentroids; // 更新为新的聚类中心
    }
    return clusters; // 返回最终聚类结果
}

7. 输出结果

最终，你可以将聚类结果输出到控制台或可视化。以下是打印每个簇的代码示例：

public void printClusters(List<List<Point>> clusters) {
    for (int i = 0; i < clusters.size(); i++) {
        System.out.println("Cluster " + i + ":");
        for (Point p : clusters.get(i)) {
            System.out.println("Point(" + p.x + ", " + p.y + ")");
        }
    }
}

状态图

以下是K-Means算法的状态图，展示了每个步骤之间的关系：

stateDiagram
    [*] --> Initialize
    Initialize --> Assign
    Assign --> Update
    Update --> Check
    Check --> Assign : Not converged
    Check --> [*] : Converged

类图

下面是K-Means实现的类图，展示了主要类及其关系：

classDiagram
    class Point {
        +double x
        +double y
        +Point(double x, double y)
    }

    class KMeans {
        +List<Point> generateData(int numPoints)
        +List<Point> initializeCentroids(List<Point> points, int k)
        +int findClosestCentroid(Point point, List<Point> centroids)
        +List<Point> updateCentroids(List<List<Point>> clusters)
        +List<List<Point>> kMeans(List<Point> points, int k, int maxIterations)
        +void printClusters(List<List<Point>> clusters)
    }