一、分类二、k-means2.1、基本算法2.2、 算法流程2.3、算法分析2.4、结束条件2.5、散度2.6、时间和空间复杂度2.7、常见问题2.8、SAE和SAE三、层次3.1、分类3.2、计算步骤3.3、lance-williams3.4、层次问题四、密度(DBSCAN)4.2、解释4.2、算法步骤4.3、DBSCAN优缺点4.4、变密度的簇4.5、簇评估分类4.5.1、图
转载 2023-06-21 22:09:52
106阅读
上一篇博文中介绍了算法中的kmeans算法.无可非议kmeans因为其算法简单加之分类效率较高。已经广泛应用于应用中.然而kmeans并不是十全十美的.其对于数据中的噪声和孤立点的带来的误差也是让人头疼的.于是一种基于Kmeans的改进算法kmediod应运而生.kmediod和Kmeans算法核心思想大同小异,可是最大的不同是在修正中心的时候,kmediod是计算簇中除开
转载 2023-10-10 09:34:12
125阅读
(Clustering)简单来说就是一种分组方法,将一事物中具有相似性的个体分为一用的算法。具体步骤如下:从n...
原创 2022-12-18 01:06:50
1209阅读
前面做过一个神经网络的分类器 现在有一些数据需要做处理。 那什么
原创 2023-08-08 10:24:43
42阅读
鸢尾花(Iris)数据集是一个经典的数据集,用于机器学习和统计学习中的分类和问题。该数据集包含了三种不同类型的鸢尾花(山鸢尾、变色鸢尾
原创 2023-05-06 00:46:23
290阅读
鸢尾花(Iris)数据集是一个经典的数据集,用于机器学习和统计学习中的分类和问题。该数据集包含了三种不同类型的鸢尾花(山鸢尾
划分Kmeans原理(1)任意选择k个对象作为初始的簇中心;(2)根据距离(欧式距离)中心最近原则,将其他对象分配到相应中;(3) 更新簇的质心,即重新计算每个簇中对象的平均值;(4) 重新分配所有对象,直到质心不再发生变化  调包实现import time import pandas as pd from sklearn import preprocessing da
转载 2023-07-28 13:11:42
156阅读
何为简单理解,如果一个数据集合包含N个实例,根据某种准则可以将这N个实例划分为m个类别,每个类别中的实例都是相关的,而不同类别之间是区别的也就是不相关的,这个过程就叫了。过程1)特征选择(feature selection):就像其他分类任务一样,特征往往是一切活动的基础,如何选取特征来尽可能的表达需要分类的信息是一个重要问题。表达性强的特征将很影响效果。这点在以后的实验中我会展示
算法思想是针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个或簇的数据分析问题。类属于无监督学习,因为只是根据样本的相似度或距离将其进行归并,而或簇实现不知道。算法有很多,这里主要介绍K均值(K-means)。的分类通过得到的簇或,本质是样本的子集。如果一个方法假定一个样本只能属于一个,那么该方法称为硬,如果一个样本可以属于多个,那么该方法称为软
转载 2023-08-19 21:58:25
112阅读
""" 是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,模型可以将 无标记的数据为多个簇,分别视为一,是一种非监督的学习算法。在商业上,可以帮助 市场分析人员从消费者库中区分出不同的消费群体,并概括出每一消费者的消费模式或消费习惯。 同时,也可以作为其它机器学习算法的一个预处理步骤,如异常值识别、连续型特征离散化等的输入是一组未被标记的样本,
转载 5月前
74阅读
就是将一个对象的集合(样本集合)分割成几个不想交的子集(每个子集所代表的语义需要使用者自己进行解释),每个内的对象之间是相似的,但与其他的对象是不相似的. 分割的的数目可以是指定的(例如k-means),也可以是有算法生成的(DBSCAN).是无监督学习的一个有用工具。1原型:原型是指结构能够通过一组原型刻画,即样本空间中具有代表性的点。也就是说是通过具有代
PythonGMM(高斯混合模型)是一种常用的算法,用于将数据集划分为多个类别。在本文中,我将向你详细介绍如何使用Python的scikit-learn库来实现GMM,并获取中心。 整体流程如下所示: 步骤|操作 -|- 第一步|导入所需的库和数据集 第二步|创建GMM模型 第三步|训练模型并进行预测 第四步|获取中心 接下来,让我们逐步进行操作。 第一步:导入所需
原创 9月前
91阅读
鸢尾花(Iris)数据集是一个经典的数据集
LVQ与k-means不同之处在于,它是有标记的。基本思想:初始化q个原型向量(q代表需要的类别数),每个原型向量也初始化其标签(标签与样本标签取值范围相同),如果原型向量的标签与某样本标签相同/不同,则使用两者间距离更新原型向量(相同时靠近更新,不同时远离更新)。因此,原型向量将反映一个标签的样本与其他标签的样本间的“边界”。训练完毕后,根据样本到原型向量的距离,对样本进行团簇划分。
      Spark作为一种开源集群计算环境,具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是,Spark中,所有数据的处理都是基于RDD的。首先举一个方面的详细应用例子Kmeans:   下面代码是一些基本步骤,包括外部数据,RDD预处理,训练模型,预测。#c
转载 2023-07-17 16:37:22
99阅读
文章目录初步认识初值选取小批 初步认识k-means翻译过来就是K均值算法,其目的是将样本分割为k个簇,而这个k则是KMeans中最重要的参数:n_clusters,默认为8。下面做一个最简单的import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklear
转载 2023-07-28 10:21:42
93阅读
菜鸟一枚,编程初学者,最近想使用Python3实现几个简单的机器学习分析方法,记录一下自己的学习过程。关于KMeans算法本身就不做介绍了,下面记录一下自己遇到的问题。一   、关于初始中心的选取 初始中心的选择一般有:(1)随机选取(2)随机选取样本中一个点作为中心点,在通过这个点选取距离其较大的点作为第二个中心点,以此类推。(3)使用层次等算法更新出初
尽管基于划分的算法能够实现把数据集划分成指定数量的簇,但是在某些情况下,需要把数据集划分成不同层上的簇:比如,作为一家公司的人力资源部经理,你可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你可以进一步划分为较小的簇,例如,职员簇可以进一步划分为子簇:高级职员,一般职员和实习人员。所有的这些簇形成了层次结构,可以很容易地对各层次上的数据进行汇总或者特征化。另外,使用基于划分的算法(
分组(Group)的理解处理数据时,在一个数据列表中会以某一列的元素作为参考基点,统计该列中每个不重复元素对应其他列的相关数据,这里可能我描述的比较复杂,可以通过下面两张表格数据处理前后帮助理解:源数据为5列,分别为 age、gender、occupation、zip_code;下面我需要对 occupation (职业)这一列进行分组分析、统计一下每类职业对应 gender、age 的最大、最小
      考虑到学习知识的顺序及效率问题,所以后续的几种方法不再详细讲解原理,也不再写python实现的源代码,只介绍下算法的基本思路,使大家对每种算法有个直观的印象,从而可以更好的理解函数中参数的意义及作用,而重点是放在如何使用及使用的场景。     (题外话: 今天看到一篇博文:刚接触机器学习这一个月我都做了什么?&nb
转载 2023-08-24 13:07:37
315阅读
  • 1
  • 2
  • 3
  • 4
  • 5