支持向量机-《统计学习方法》学习笔记1 概述2聚类的基本概念2.1 相似度或距离2.2 类或簇2.3 类与类的距离3 层次聚类3.1 聚合聚类算法3.2 聚合聚类例题4 k均值聚类4.1 K均值算法4.2 k均值例题4.2 k值的选择 1 概述 聚类是针对给定的样本,依据他们特征的相似度或距离,将其归并到若干个类或簇的数据分析问题。  聚类的目的是通过得到的类或簇来发现数据的特点,或对数据进行处            
                
         
            
            
            
            提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正 K均值前言一、K均值是什么?二、使用步骤算法流程小结 前言k-means算法是非监督聚类最常用的一种方法,因其算法简单和很好的适用于大样本数据,广泛应用于不同领域,本文详细总结了k-means聚类算法原理。聚类算法:是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是:聚类算法是无监督的学习算            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-23 10:41:47
                            
                                33阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            我们在说机器学习分类的时候,简单介绍了一下不同机器学习方法,主要是解决是什么问题,在本节中具体介绍一些常用的应用场景,主要说明这些应用到底怎么用,不对其中的算法以及原理做深入的介绍。机器学习的应用1. 分类和聚类分类和聚类机器学习最常用的应用场景,分类和聚类都是对数据的分组,我们刚接触的时候,很容易混淆这两个应用的概念,觉得分类就是聚类,其实他们有很多的不同。分类是我们知道有哪些组,然后对数据进行            
                
         
            
            
            
            聚类是机器学习中一种重要的无监督算法,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。以下是五种常用的聚类算法。 K均值聚类 这一最著名的聚类算法主要基于数据点之间的均值和与聚类中心的聚类迭代而成。它主要的优点是十分的高效            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-27 09:48:41
                            
                                137阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录1. 非线性激活层到底是个什么样的东西?2. 使用激活层的原则:3. ResNet之所以work的本质原因1. 非线性激活层到底是个什么样的东西?其实,对于一个数据,利用非线性激活层对其进行激活,其实是从该数据的信息中提取出其潜在的稀疏性(降维,从原先M->N),但是这种提取的结果是否正确,就要分情况讨论了。维度低的数据其实就是这么一种情况:其信息的冗余度高的可能性本来就低,如果强行对其            
                
         
            
            
            
            此处并不会列举每一种聚类(Clustering)算法,因为学术界Clustering算法如果真要细分,还真有很多变种。此处只会介绍几种在我近几年互联网工作生涯中实际碰到的具体问题, 以及如何使用Clustering算法解决这些问题。 一般来说,我们可以将Clustering认为是将出现的数据进行Data Segmentation,也就是经常说的哲理: 物以类聚。 从机器学习的观点来看, Clus            
                
         
            
            
            
            将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。常用的聚类算法包括原型聚类、密度聚类和层次聚类三大类。 
  其中密度聚类算法(density-based clustering)假设聚类结构能通过样本分布的紧密程度确定。通常情况下,密度聚类算法从样本密度角度考察            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-07 21:02:23
                            
                                61阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. Kmeans聚类算法简介由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。Kmeans算法是一个重复移动类中心点的过程,把类的中心点,也称重心(centroids),移动到其包含成员的平均位置,然后重新划分其内部成员。k是算法计算出的超参数,表示类的数量;Kmeans可以自动分配样本到不同的类,但是不能决定究竟要分几个类。k必须是一个比训练集样本数小的正整数。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-20 23:03:11
                            
                                62阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。1.基于密度聚类算法的原理DBSCAN方法是一种基于密度的聚类方法,这类密度聚类方法一            
                
         
            
            
            
            这篇博客介绍另一种类型的聚类算法——密度聚类。密度聚类方法的指导思想:只要样本点的密度大于某个阈值,则将该样本添加到最近的簇中。这类算法可以克服基于距离的算法只能发现凸聚类的缺点,可以发现任意形状的聚类,而且对噪声数据不敏感。但是计算复杂度高,计算量大。常用算法:DBSCANMDCADBSCANDBSCAN(Density-Based Spatial Clustering of Applicati            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-26 14:41:02
                            
                                113阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             在处理非完全图的聚类时候,很难找到一个有效的聚类算法去做聚类。  对于下图来说,10号点和15号点的位置相隔并不是那么近,如用普通聚类算法对下图做聚类,通常会把10号点和15号点聚在一个类上,所以一般的聚类效果并没有那么好。    而谱聚类,就很能很好的处理这类问题。    下面我们来重点介绍谱聚类  谱聚类(SpectralClustering),就是要把样本合理地分成两份或者K份。从图论的角            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-29 14:09:10
                            
                                38阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录理论部分1.1 提出背景1.2 常见算法1.3 DBSCAN算法1.3.1 基本概念1.3.2 算法流程1.3.3 参数设置1.3.3 优点1.3.4 缺点1.3.5 可视化结果展示1.4 评估指标代码部分2.1 不使用sklearn实现2.2 使用sklearn实现 理论部分1.1 提出背景与K-means算法基于距离聚类不同,DBSCAN算法是基于样本点密度进行聚类。基于距离的聚类方法只            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-19 17:50:36
                            
                                104阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            4.基于密度峰值的聚类算法主要思想是寻找被低密度区与分离的高密度区域,基于的假设为: 1)类簇中心点的密度大于周围邻居点的密度; 2)类簇中心点与更高密度点之间的距离相对较大 因此有两个需要计算的量:局部密度pi和高局部密度点距离(与高密度点之间的距离) δipi理解:其中dc表示截断距离,这个公式的意义就是找到与第i个数据点之间的距离小于截断距离的数据点的个数(某个点的距离到该点的距离小于dc            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-11 14:00:05
                            
                                114阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            聚类算法原理简介聚类概念聚类涉及到数据点的分组,给定一组数据点,我们可以根据聚类算法将每个数据点划分为一个特定的组。同一组中的数据点应该具有相似的属性或特征,不同组中的数据点应该具有高度不同的属性或特征。聚类是一种无监督机器学习的方法(没有标签),或许多领域中常用的统计数据分析技术有时候作为监督学习中稀疏特征的预处理,有时候可以作为异常值检测。 应用场景:新闻聚类、用户购买模型(交叉销售)、图像与            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-28 13:53:14
                            
                                56阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近在阅读阿里数据分析专家卢辉的《数据挖掘与数据化运营实战》。书中结合了实际业务案例,介绍了在实战项目中数据分析和数据挖掘的许多知识点,干货满满。因此,打算结合书中内容,对一些重要的主题加以总结,在过程中加深对各个知识点的理解。 文章目录1. 聚类应用场景2. 常用聚类方法2.1 原型聚类Kmeans聚类算法高斯混合模型GMM2.2 密度聚类DBSCAN2.3 层次聚类3. 聚类效果的评估4. 聚            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-22 19:49:19
                            
                                103阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            密度聚类密度聚类方法的指导思想是,只要一个区域中的点的密度大于某个阈值,就把它加到与之相近的聚类中去。这类算法优点在于可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度大,需要建立空间索引来降低计算量。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。一.DBSCAN算法:它将簇定义为a密度相连的点的最大集合,所有的点被分为核心点,(密度            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-06 10:39:47
                            
                                98阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            类是一种实体类型的抽象,它是一个新的数据类型,从语言层面来看,类就是一个数据结构,类定义数据类 型的数据(字段)和行为(方法)。而对象是基于类的具体实体,又是称为类的实例。简单的例子:如果你想买一 套期房,售楼部小姐拿出来的是一张该户型的规格图,卧室长多少宽多少,这张纸就相当于类。而当房子盖好的时 候,就变成实实在在存在的一套房,实体就是我们所说的对象。面向对象的三大特征的思想: 封装,继承,多态            
                
         
            
            
            
            常用聚类原理与应用摘要:聚类分析是一种对多样本数据进行定量分类的一种多元统计分析方法,是机器学习中无监督学习的典型代表。聚类分析可以根据应用样本的不同上可以分为Q型聚类和R型聚类,其中聚类的标准均来源于样本的属性距离即相似程度。聚类算法常用于机器学习、数据分析等领域中,常用的聚类方法有层次化聚类、k-means聚类、均值漂移聚类,它们各有优劣,算法选择和调参需要参考具体的应用场景。 关键词: 无监            
                
         
            
            
            
            其他机器学习系列文章见于专题:机器学习进阶之路——学习笔记整理,欢迎大家关注。1. 密度聚类  密度聚类假设聚类结构能够通过样本分布的紧密程度确定,其主要思想是:通过样本之间是否紧密相连来判断样本点是否属于同一个簇。  这类算法能克服基于距离的算法(如K-Means)只能发现凸聚类的缺点,可以发现任意形状的聚类,且对噪声数据不敏感,但计算密度大暖的计算复杂度大,需要建立空间索引来降低计算量。2.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-18 09:39:41
                            
                                195阅读
                            
                                                                             
                 
                
                             
         
            
            
            
                        
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-07-25 16:12:02
                            
                                0阅读
                            
                                                                             
                 
                
                                
                    