聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。属于一种无监督算法。 
    
 小小:机器学习理论(十三)Kmeans聚类zhuanlan.zhihu.com 
  
    一、相似度/距离计算方法总结1、闵可夫斯基距离(Minkowski):    
    2、杰卡德相似系数(Jaccard):            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-04 19:57:01
                            
                                78阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理kmeans的计算方法如下:1 随机选取k个中心点2 遍历所有数据,将每个数据划分到最            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-28 13:36:49
                            
                                370阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            聚类评价指标最近在做聚类的项目,聚类得到结果后我们需要知道聚类的好坏,用哪个算法效果比较好。肯定要选择那个最好评价的算法。今天我们就不谈算法只谈算法结果的评价。 我也从网上看了很多的别人写的东西,总之是五花八门的。那下面我们言归正传。 聚类算法是机器学习算法中的一种无监督算法。那么在生活中我们大多数做项目的话其实数据集都是为标定的。我看到许多人有写到通过有label的样本,计算它的混淆矩阵。这不乏            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-02 07:48:30
                            
                                61阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             聚类分析的评价指标也称为:性能度量指标聚类算法聚类后,如何评价聚类结果,如何确定各聚类算法结果的优劣,如何确定聚类算法的参数值,可以通过聚类性能度量指标从一个侧面说明聚类算法和算法参数的选择。、聚类性能度量指标分为外部指标和内部指标。外部指标,也就是有参考标准的指标,通常也可以称为有监督情况下的一种度量聚类算法和各参数的指标。具体就是聚类算法的聚类结果和已知的(有标签的、人工标准或基于            
                
         
            
            
            
            聚类的介绍……………………………………………………………………………………案例——商场客户聚类目录聚类的介绍案例——商场客户聚类一、读取数据二、聚类KMeans函数的参数讲解:KMeans属性列表KMeans接口列表三、查看数据及可视化sort_values()方法groupby()的常见用法 groupby()的配合函数 四、聚类评价指标。计算聚簇数量从2到19时的轮廓系数。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-05 16:44:35
                            
                                78阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                          
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-16 19:46:52
                            
                                423阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Ci 的所有样本的平均距离 bij,称为样本i 与簇 Ci 的不相似度。定义为样本 i 的簇间不相似度:bi=min{bi1, bi2, …其他样本的平均            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-06-16 21:26:34
                            
                                716阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            引言最近在读西瓜书,查阅了多方资料,恶补了数值代数、统计概率和线代,总算是勉强看懂了西瓜书中的公式推导。但是知道了公式以后还是要学会应用的,几经摸索发现python下的sklearn包把机器学习中经典的算法都封装好了,因此,打算写几篇博客记录一下sklearn包下的常用学习算法的使用,防止自己以后忘了,嘿嘿。1.聚类西瓜书中197页对“聚类”做了详细的解释,以下为摘录:在无监督学习中,训练样本的标            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-24 13:39:28
                            
                                221阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录前言介绍局部聚类系数全局聚类系数 前言在GraphSage论文的理论分析部分,涉及到一个概念叫做“Clustering coefficient”,直译过来就是聚类系数,解释为“节点的一跳邻域内封闭的三角形的比例”,本文对其做一个简单的介绍。本文参考了 Wiki百科-Clustering coefficient。更:关于GraphSage论文详解,请参见博文《GraphSage-《Induct            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 22:29:28
                            
                                149阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            层次聚类算法的主要优点在于我们无需事先知道最终所需集群数量。很遗憾的是,网上并没有很详细的教程讲述如何使用 SciPy 的层次聚类包进行层次聚类。本教程将帮助你学习如何使用 SciPy 的层次聚类模块。命名规则在我们开始之前,我们先设定一下命名规则来帮助理解本篇教程:X - 实验样本(n 乘 m 的数组)n - 样本数量m - 样本特征数量Z - 集群关系数组(包含层次聚类信息)k - 集群数量导            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 15:13:06
                            
                                159阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言今天试了下用python实现层级聚类,感觉还是有不少问题。转专业的一只小菜鸡,初学代码,写的很简陋,希望各位大牛能指出不足之处。代码输入是一个长度可选的列表。这里用random随机生成,10个数据,并把数据用字母'a'、'b'等依次标记。算法实现中用树结构存储数据。树的每一个节点都是一个数据集,它的左右子树代表该节点包含的两个数据集。计算所有数据相互的距离(x1.value - x2.valu            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-30 21:58:26
                            
                                284阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近使用MDTraj对分子动力学轨迹进行聚类分析,接触到了python中的聚类实现,故将CSDN上一篇关于聚类的博客搬运至此,以作备忘:scipy cluster库简介scipy.cluster是scipy下的一个做聚类的package, 共包含了两类聚类方法:矢量量化(scipy.cluster.vq:支持vector quantization 和 k-means 聚类方法层次聚类(scipy.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-16 06:15:08
                            
                                127阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            前言K-means 聚类,介绍了 K-means 算法以及一些优化改进的算法,通过此了解聚类分析,接下来我们进一步的介绍聚类分析的其他方法。本篇代码可见:Github一、层次聚类\quad\quad 层次聚类技术是第二类重要的聚类方法。层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止,传统的层次聚类算法主要分为两大类算法:凝聚的层次聚类:AGNES算法(AGglomerative N            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-15 14:48:49
                            
                                564阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在数据分析挖掘过程中常用的聚类算法有1.K-Means聚类,2.K-中心点,3.系统聚类.1.K-均值聚类在最小误差基础上将数据划分为预定的类数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近的点最为簇中心点.3.系统聚类又叫多层次聚类,分类是由高到低(可以想象下二叉树这种结构),越靠后,包含的            
                
         
            
            
            
            层次聚类步骤:假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是:1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度;2、按一定规则选取符合距离要求的类别,完成类间合并;3、重新计算新生成的这个类与各个旧类之间的相似度;4、重复2和3直到所有样本点都归为一类,结束。随机森林步骤:从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本,共进行            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-22 07:53:31
                            
                                102阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            层次聚类和DBSCAN  前面说到K-means聚类算法,K-Means聚类是一种分散性聚类算法,本节主要是基于数据结构的聚类算法——层次聚类和基于密度的聚类算法——DBSCAN两种算法。1.层次聚类  下面这样的结构应该比较常见,这就是一种层次聚类的树结构,层次聚类是通过计算不同类别点的相似度创建一颗有层次的树结构,在这颗树中,树的底层是原始数据点,顶层是一个聚类的根节点。  创建这样一棵树的方            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 13:08:52
                            
                                749阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            轮廓系数(Silhouette Coefficient)是聚类分析中用来评估聚类效果的一个重要指标,能够帮助我们理解数据的分布特征。在 Python 中,计算和分析轮廓系数提供了丰富的工具和函数,使得数据分析师和机器学习工程师能够更有效地评估其算法性能和数据划分结果。
### 协议背景
轮廓系数的计算是基于数据点间距离的一个度量,其值范围在 -1 到 1 之间。数值越高,代表数据点被正确地聚类,            
                
         
            
            
            
            '''
    凝聚层次算法:首先假定每个样本都是一个独立的聚类,如果统计出来的聚类数大于期望的聚类数,则从每个样本出发寻找离自己最近的另一个样本,
                与之聚集,形成更大的聚类,同时令总聚类数减少,不断重复以上过程,直到统计出来的聚类数达到期望值为止。
            凝聚层次算法的特点:
                1.聚类数k必须事先已知。借助某些评            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-24 17:30:16
                            
                                209阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            写在前面:健忘星人自学笔记,仅供参考简单易懂的阅读资料    层次聚类-概念全解 - 万勇's   
      前面的文章我们分别介绍了 K-means , 密度聚类,谱聚类,其中谱聚类的难度比较大,要求有一定的矩阵学习基础,今天不妨轻松一下,学习一个较为简单的“层次聚类”。正文:一、层次聚类基本原理层次的聚类方法(Hierarchical Clustering),从字面上理解,其            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-08 10:00:59
                            
                                74阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            层次聚类是数据挖掘和机器学习中的一种常用聚类技术,主要用于将数据点进行层次化的分类。通过这种技术,我们可以将相似的数据点归为一类,以便进行分析和挖掘。接下来将详细记录解决“层次聚类python”的过程,包括相关背景、参数解析、调试步骤等方面。
## 背景定位
在某项目中,我们面临需要对一组数据进行聚类的问题。随着数据量的增加,我们发现简单的聚类算法已难以处理大量复杂的数据样本。经过讨论,决定使