问答的文本聚类算法文本聚类分析软件

转载

mob64ca1419e0cc 2024-05-08 20:04:21

文章标签 问答的文本聚类算法文本聚类分析算法聚类数据 Python 文章分类 机器学习人工智能

问答的文本聚类算法文本聚类分析软件_问答的文本聚类算法

所谓聚类分析，就是给定一个元素集合D，其中每个元素具有n个观测属性，对这些属性使用某种算法将D划分成K个子集，要求每个子集内部的元素之间相似度尽可能高，而不同子集的元素相似度尽可能低。聚类分析是一种无监督的观察式学习方法，在聚类前可以不知道类别甚至不用给定类别数量。目前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域。

聚类算法有很多种，如K-means(K均值聚类)、K中心聚类、密度聚类、谱系聚类、最大期望聚类等。这里我们重点介绍K-means聚类算法，该算法的基本思想是以空间中K个点为中心进行聚类，对最靠近它们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。K-means算法实现简单、计算速度快、原理易于理解、具有理想的聚类效果，因此该算法是公认的经典数据挖掘方法之一。

例如对于常见的二维数据集，设计K-means聚类方法，对80个二维数据点进行聚类分析。K-means算法的Python语言实现及处理过程如下：

如下图所示的80个二维样本数据集，存储为testSet文本文档。经过数据预处理和简单分析，得知该数据集共有4个类别，因而能确定聚类数K为4。

问答的文本聚类算法文本聚类分析软件_问答的文本聚类算法_02

首先导入必要的模块：

import kmeans

(1) 从文件加载数据集
构建数据矩阵，从文本中逐行读取数据，形成供后继使用的数据矩阵。

dataSet=[]
fileIn=open('testSet.txt')
for line in fileIn.readlines():
    lineArr=line.strip().split('\t')
    dataSet.append([float(lineArr[0]),float(lineArr[1])])

(2) 调用kmeans算法进行数据聚类
通过以下命令调用设计的kmeans模块，进行数据聚类。

dataSet=np.mat(dataSet)
k=4
centroids,clusterAssment=kmeans.kmeanss(dataSet,k)

kmeans模块主要包含如下几个函数。
距离度量函数。这里使用的是欧氏距离，计算过程如下：

def eucDistance(vec1,vec2):

初始聚类中心选择。从数据集中随机选择K个数据点，用作初始聚类中心。

def initCentroids(dataSet,k):
    numSamples,dim=dataSet.shape

K-Means 聚类算法。该算法会创建k个质心，然后将每个点分配到最近的质心，再重新计算质心。这个过程重复数次，直到数据点的簇分配结果不再改变位置。

def kmeanss(dataSet,k):

聚类结果显示。将聚类划分在的不同簇的数据，用不同的颜色和符号进行显示，同时画出最终的聚类中心。

def showCluster(dataSet,k,centroids,clusterAssement):

(3) 聚类结果显示

对80个二维数据，使用K-means方法进行聚类，聚类结果如图13-5所示，迭代后的聚类中心用方形表示，其他数据用不同颜色的原点表示。

问答的文本聚类算法文本聚类分析软件_Python_03

图:二维数据的聚类结果

留言回复你在机器学习方面做过哪些有趣的应用，我们会在留言中随机抽取一位读者免费送出北京大学出版社出版的《Python 3 数据分析与机器学习实战》图书一本。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：dataframe判断series是否大于某值 dataframe数据筛选

下一篇：大模型推理时out of memory 模型推演的解释

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

问答的文本聚类算法 文本聚类分析软件

问答的文本聚类算法 文本聚类分析软件

51CTO博客

问答的文本聚类算法文本聚类分析软件

问答的文本聚类算法文本聚类分析软件