文章目录1 概述1.1 无监督学习与聚类算法1.2 sklearn中的聚类算法2 KMeans2.1 KMeans是如何工作的2.2 簇内误差平方和2.3 KMeans算法的时间复杂度3 sklearn.cluster.KMeans3.1 重要参数n_clusters3.1.1 聚类算法的模型评估指标3.1.1.1 当真实标签已知的时候3.1.1.2 当真实标签未知的时候:轮廓系数3.1.1.3            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-29 11:10:54
                            
                                113阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录基本原理sklearn中的实现 基本原理AffinityPropagation按照字面意思就是亲和力传播,可见这个算法的关键就是亲和力与传播。说到传播,无外乎两件事,第一件事,传的是什么,暂且先不用管,因为名字里已经说了,传的是亲和度;第二件事,怎么传,为了解决这个问题,就必须造一条传递亲和力的通道。最直接的想法就是连接样本中所有的点,这样点与点之间就有了关联。 从而得到一个图。下面新建            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-21 02:33:08
                            
                                79阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录 KNN简述 KNN算法蛮力实现 KNN算法之KD树 KNN算法之球树 KNN算法小结 一、KNN简述  邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分类(classif            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-20 17:42:58
                            
                                72阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            """ 聚类是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,聚类模型可以将 无标记的数据聚类为多个簇,分别视为一类,是一种非监督的学习算法。在商业上,聚类可以帮助 市场分析人员从消费者库中区分出不同的消费群体,并概括出每一类消费者的消费模式或消费习惯。 同时,聚类也可以作为其它机器学习算法的一个预处理步骤,如异常值识别、连续型特征离散化等聚类的输入是一组未被标记的样本,聚类根            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-12 18:15:56
                            
                                117阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、前言我们生活在数据大爆炸时代,每时每刻都在产生海量的数据如视频,文本,图像和博客等。由于数据的类型和大小已经超出了人们传统手工处理的能力范围,聚类,作为一种最常见的无监督学习技术,可以帮助人们给数据自动打标签,已经获得了广泛应用。聚类的目的就是把不同的数据点按照它们的相似与相异度分割成不同的簇(注意:簇就是把数据划分后的子集),确保每个簇中的数据都是尽可能相似,而不同的簇里的数据尽可能的相异。            
                
         
            
            
            
            学模式识别的时候觉得聚类是个很简单很基础的东西,但到了实习工作以及保研面试的时候又发现其实聚类没那么简单,这里从浅入深,结合个人项目以及其他写的不错的博客来聊聊聚类算法,有写的不对的地方欢迎指出~~主要参考了下面这些文章   
 用于数据挖掘的聚类算法有哪些,各有何优势?www.zhihu.com 
  
    09 聚类算法 - 层次聚类 - CF-Tree、BIRCH、CURE  http:            
                
         
            
            
            
            # 使用 PySpark 与 Scikit-Learn 进行聚类分析
聚类是数据挖掘和机器学习中的一种无监督学习技术,常用于将相似的数据点归为一组。在海量数据中,如何快速有效地进行聚类分析是许多数据科学家面临的一个重要问题。PySpark 和 Scikit-Learn 是两个流行的工具,它们能够完美结合,实现高效的聚类分析。本文将介绍如何在这些工具中实施聚类,并提供具体的代码示例。
## 1.            
                
         
            
            
            
            scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法。还包括了特征提取,数据处理和模型评估者三大模块。一,sklearn官方文档的内容和结构1.1 sklearn官方文档的内容 库的算法主要有四类:监督学习的:分类,回归,无监督学习的:聚类,降维。常用的回归:线性、决策树、SVM、KNN 集成回归:随机森林、Adaboost、GradientBoosting、            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-27 14:17:34
                            
                                133阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在scikit-learn 中,与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNeighborsClassifier,KNN回归树的类KNeighborsRegressor。除此之外,还有KNN的扩展,即限定半径最近邻分类树的类RadiusNeighborsClassifier和限定半径最近邻回归树的类RadiusNeighborsRegre            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-09 11:34:01
                            
                                119阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            关于OpenCV3的KMeans/GMM分割应用C++实现的DEMO–更换证件照片背景作者:Simon Song分割算法的应用1.KMEANS:是一种聚类算法,主要过程: 流程图: 参数k–> 初始化中心点–>根据每个样本与中心的距离,分配聚类编号–>对编号相同的样本,计算新的中心位置–>当距离(D)小于阈值(T)或迭代(Iteration)次数大于迭代次数(C)->            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-09 10:24:23
                            
                                51阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            KMeans方法:KMeans是一种无监督的学习方法,对于一个分类问题,我们在输入分类数目之后,需要初始化每个分类的中心位置。用距离度量的方法进行归类,任意一个样本离中心距离越近,就把它归为某类。 步骤一: 假设上图有一个2分类的样本,样本编号分别为1、2,在图中使用“X”表示,距离1样本近的,则把样本标记为1,距离2样本近的,就把样本标记为2,得到如下图:步骤二: 根据分类好的样本重新计算中心点            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-07 09:32:04
                            
                                97阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            引言最近在读西瓜书,查阅了多方资料,恶补了数值代数、统计概率和线代,总算是勉强看懂了西瓜书中的公式推导。但是知道了公式以后还是要学会应用的,几经摸索发现python下的sklearn包把机器学习中经典的算法都封装好了,因此,打算写几篇博客记录一下sklearn包下的常用学习算法的使用,防止自己以后忘了,嘿嘿。1.聚类西瓜书中197页对“聚类”做了详细的解释,以下为摘录:在无监督学习中,训练样本的标            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-24 13:39:28
                            
                                219阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1 介绍超参数是不直接在估计器中学习的参数。 在 scikit-learn 中,它们作为参数传递给估计器类的构造函数。 需要搜索超参数空间以获得最佳交叉验证分数。scikit-learn 中提供了两种通用的参数搜索方法: 
  对于给定的值,GridSearchCV 会详尽地考虑所有参数组合RandomizedSearchCV 可以从具有指定分布的参数空间中采样给定数量的候选者。这两个工            
                
         
            
            
            
            如果从功能上来划分,sklearn 可以实现分类、聚类、回归、降维、模型选择和预处理等功能。这里我们使用的是 sklearn 的聚类函数库,因此需要引用工具包,具
KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, ra            
                
         
            
            
            
            MeanShift 算法旨在于发现一个样本密度平滑的 blobs 。均值漂移(Mean Shift)算法是基于质心的算法,通过更新质心的候选位置,这些侯选位置通常是所选定区域内点的均值。然后,这些候选位置在后处理阶段被过滤以消除近似重复,从而形成最终质心集合。...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-02 09:42:16
                            
                                45阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            SpectralClustering(谱聚类) 是在样本之间进行关联矩阵的低维度嵌入,然后在低维空间中使用 KMeans 算法。 如果关联矩阵稀疏并且 pyamg 模块已经被安装,则这是非常有效的。 谱聚类 需要指定簇的数量。这个算法适用于簇数量少时,在簇数量多时是不建议使用。对于两个簇,它解决了相似图形上的 归一化切割(normalised cuts)的凸松弛问题:            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-02 09:42:23
                            
                                167阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            The DBSCAN 算法将簇视为被低密度区域分隔的高密度区域。由于这个相当普遍的观点, DBSCAN发现的簇可以是任            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-02 09:45:25
                            
                                316阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            内平方和(within-cluster sum-of-squares)的标准(criterion)。该算法需要指定簇的数量。它可以很好地扩展到大量样本处在同一个空间。..            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-02 09:45:57
                            
                                77阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            AffinityPropagation AP聚类是通过在样本对之间发送消息直到收敛的方式来创建聚类。然后使用少量模范样本作为聚            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-11-02 09:46:00
                            
                                97阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            背景:我们需要对多标签的问题,标签进行谱聚类,然后看相应的聚类结果。官方API描述:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.SpectralClustering.html#sklearn.cluster.SpectralClustering目录一、安装sklearn1.1 scikit-learn概览1.2