一、聚类分析是无监督学习算法中最常用的一是将数据分类到不同的或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性与分类的不同在于,所要求的划分的是未知的。二、常见的算法K-Means层次DBSCAN三、K-均值算法1.定义  是一种迭代求解的聚类分析算法2.工作流程随机确定K个初始点作为质心,K为用户给定值为每个点找距其最近的质
最近学习层次算法,厚颜转载一篇博文。 参考:层次算法的原理及实现Hierarchical Clustering层次(Hierarchical Clustering)是算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套树。在树中,不同类别的原始数据点是树的最低层,树的顶层是一个的根节点。模式: 1)自底向上型(agglomerative) 2)自上向
转载 2023-06-21 21:54:15
191阅读
KMeans算法主要分为3个步骤: 1.第一步是为待的点寻找中心; 2.计算每个点到中心的距离,将每个点到离该点最近的中心去; 3.计算每个中所有点的坐标平均值,并将这个平均值作为新的中心; 4.反复执行第二步、第三步,直到中心不再进行大范围的移动或者类次数达到要求,整个过程就停止了。
原创 2022-11-28 15:42:59
118阅读
是一种基于图论的方法,通过对样本数据的拉普拉斯矩阵的特征向量进行,从而达到对样本数据的母的。谱可以理解为将高维空间的数据映射到低维,然后在低维空间用其它算法(如KMeans,c-均值)进行。相似图构造相似图,用来刻画数据点局部的近邻关系。顶点对应一个样本点。k-近邻图 如果是的近邻,那么和之间存在一条边。由于每个样本点的近邻情况不完全相同,因此这种方法构造的
转载 2024-03-17 10:05:48
150阅读
一、K-Means K-Means是GMM的特例(硬,基于原型的)。假设多元高斯分布的协方差为0,方差相同。 K-Means算法思想 对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。 N个d维样本,时间复杂度 O(kLNd)
高斯混合将高斯分布、贝叶斯公式、极大似然法(EM)估计的思路混合在这一种方法中。高斯混合是从概率的角度对样本进行的,而且这个概率是连续概率。基础概念先验概率:指根据以往经验和分析得到的概率。条件概率:指已知一个条件下,结果发生的概率。后验概率:判断结果的发生是由哪个原因引起的概率。一元高斯函数:多元高斯分布:对n维样本空间 X中的随机向量x,若x服从高斯分布,其概率密度函数为:上面的
算法原理一、K-Meansk-means模型的本质:  它以每个簇的中心为圆心,簇中点到簇中心点的欧氏距离最大值为半径画一个圆。这个圆硬性的将训练集进行截断。而且,k-means要求这些簇的形状必须是圆形的。因此,k-means模型拟合出来的簇(圆形)与实际数据分布(可能是椭圆形)差别很大,经常出现多个圆形的簇混在一起,相互重叠。K-Medians算法K-Medians算法是K-
混合高斯模型简介 混合高斯模型基于多变量正态分布。 gmdistribution通过使用EM算法来拟合数据,它基于各观测量计算各成分密度的后验概率。 与k-means相似,高斯混合模型也使用迭代算法计算,最终收敛到局部最优。高斯混合模型在各类尺寸不同、间有相关关系的的时候可能比k-means更合适。使用高斯混合模型的类属于软方法(一个观测量按概率属
划分Kmeans原理(1)任意选择k个对象作为初始的簇中心;(2)根据距离(欧式距离)中心最近原则,将其他对象分配到相应中;(3) 更新簇的质心,即重新计算每个簇中对象的平均值;(4) 重新分配所有对象,直到质心不再发生变化  调包实现import time import pandas as pd from sklearn import preprocessing da
转载 2023-07-28 13:11:42
219阅读
一、K-Means算法1.1 原理 / 步骤:我们随机初始化K个起始质心。每个数据点都分配给它最近的质心。重心被重新计算为分配给各个群集的数据点的平均值。重复步骤1和2,直到触发停止标准。现在您可能想知道我们正在优化什么,通常是相似性度量方法:更精确的欧几里德距离或平方欧几里德距离。数据点被分配给最接近它们的簇,或者换句话说,该簇使该平方距离最小。1.2 最佳的K值:使用K均值时,我们需要做的
是一种数据分析方法,针对已有的数据根据挑选的特征将其分为多,特征最相似的几种特征归为一。俗话说的“人以类聚,物以群分”说的就是这个道理,只不过将这种道理从理论的角度来进行阐释和升华,可以用于分类任务中,属于机器学习中的无监督学习。这里主要根据我模式识别所做的课程作业,简单介绍K,fuzzy-C,以及GMM。K-means 方法其中K指的是的数目,方法的核心思
菜鸟一枚,编程初学者,最近想使用Python3实现几个简单的机器学习分析方法,记录一下自己的学习过程。关于KMeans算法本身就不做介绍了,下面记录一下自己遇到的问题。一   、关于初始中心的选取 初始中心的选择一般有:(1)随机选取(2)随机选取样本中一个点作为中心点,在通过这个点选取距离其较大的点作为第二个中心点,以此类推。(3)使用层次等算法更新出初
尽管基于划分的算法能够实现把数据集划分成指定数量的簇,但是在某些情况下,需要把数据集划分成不同层上的簇:比如,作为一家公司的人力资源部经理,你可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你可以进一步划分为较小的簇,例如,职员簇可以进一步划分为子簇:高级职员,一般职员和实习人员。所有的这些簇形成了层次结构,可以很容易地对各层次上的数据进行汇总或者特征化。另外,使用基于划分的算法(
一、python代码''' Author: Vici__ date: 2020/5/14 ''' import math ''' Point,记录坐标x,y和点的名字id ''' class Point: ''' 初始化函数 ''' def __init__(self, x, y, name): self.x = x # 横坐标
转载 2023-08-20 10:00:57
60阅读
准备说明:Python代码运行,需要有数据集,文章最后有csv格式的数据集,请自行下载。理论知识讲解:模糊理论模糊控制是自动化控制领域的一项经典方法。其原理则是模糊数学、模糊逻辑。1965,L. A. Zadeh发表模糊集合“Fuzzy Sets”的论文, 首次引入隶属度函数的概念,打破了经典数学“非0即 1”的局限性,用[0,1]之间的实数来描述中间状态。很多经典的集合(即:论域U内的某个元素是
转载 2024-08-13 17:42:44
39阅读
本例中,使用用户注册时间(注册天数reg_length)、活跃(最近活跃间隔天数rec_act_length、近7日活跃天数act_days)和变现(近7日日均广告点击量ad_pd、近7日日均阅读量read_pd)三个维度进行。库导入在这里用到了os用来处理路径,numpy、pandas都是数据分析处理的常用库,matplotlib作简单的图形看指标分布,重头戏就是sklearn啦,用来完成我
转载 2024-03-04 01:25:34
29阅读
下面是几个城市的GDP等信息,根据这些信息,写一个SOM网络,使之对下面城市进行。并且,将结果画在一个二维平面上。 //表1中,X。为人均GDP(元);X2为工业总产值(亿元);X。为社会消费品零售总额(亿元);x。为批发零售贸易总额(亿元);x。为地区货运总量(万吨),表1中数据来自2002年城市统计年鉴。//城市 X1 X2 X3 Xa X5 北京 27527 2738.30 1
转载 2023-06-20 14:47:21
122阅读
1.1Kmeans算法理论基础         K均值算法能够使域中所有样品到中心距离平方和最小。其原理为:先取k个初始中心,计算每个样品到这k个中心的距离,找出最小距离,把样品归入最近的中心,修改中心点的值为本类所有样品的均值,再计算各个样品到新的中心的距离,重新归类,修改新的中心点,直
转载 2024-05-15 08:50:27
49阅读
K-means算法介绍  K-means算法是很典型的基于距离的算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。                     算法过
转载 2023-06-19 20:07:34
209阅读
最近在做SOM神经网络模型的项目,之前一直在用Matlab的工具箱,一直想转成Python的代码来实现,就到处找,结果还真有SOM相关的库。 自组织地图MiniSom 是自组织映射 (SOM) 的简约和基于 Numpy 的实现。SOM 是一种人工神经网络,能够将高维数据项之间复杂的非线性统计关系转换为低维显示器上的简单几何关系。Minisom 旨在让研究人员能够轻松地在其基础上进行构建,并
  • 1
  • 2
  • 3
  • 4
  • 5