评估模型轮廓系数评估:轮廓系数(Silhouette Coefficient):https://www.jianshu.com/p/6352d9d468f8si接近1,则说明样本i合理。si接近-1,则说明样本i更应该分类到另外的簇。若si近似为0,则说明样本i在两个簇的边界上。silhouette_score 返回的是平均轮廓系数# 评估模型import nu...
原创 2022-07-18 14:52:45
186阅读
有效性的评价可分为内部指标和外部指标,内部指标是一种无监督的评价方法,它对结果的评价不需要借助样本集的真实标签,仅利用样本集自身 结构信息对结果进行评价;而外部指标是一种有监督的评价方法,它通过对比标签和真实标签之间的匹配程度来评价效果。内部指标只是无法获取真实标签时的一种权宜之计,当真实标签存在时,显然外部指标更为客观和准确。(1)Purity(2)Cluster Simil
转载 2024-03-29 13:38:31
92阅读
好的算法一般要求簇具有高的内(intra-cluster)相似度和低的(inter-cluster)相似度。算法有外部(External)评价指标和内部(Internal)评价指标两种,外部评价指标需要借助数据真实情况进行对比分析,内部评价指标不需要其他数据就可以进行指标的评估。设有个维数据,真实数据共有簇,算法将数据划分为簇 。Purity按照以下思路计算,对算法得到的每一个
转载 2024-03-27 11:53:24
203阅读
前言  在前面的文章中,涉及到的机器学习算法均为监督学习算法。  所谓监督学习,就是有训练过程的学习。再确切点,就是有 "分类标签集" 的学习。  现在开始,将进入到非监督学习领域。从经典的问题展开讨论。所谓,就是事先并不知道具体分类方案的分类 (允许知道分类个数)。  本文将介绍一个最为经典的算法 - K-Means 算法以及它的两种实现。现实中的聚类分析问题 - 总统大选  假
# Python 性能评估指南 ## 1. 引言 在机器学习和数据挖掘领域,是一种常见的技术,它可以将数据集中的对象分组到相似的类别中。算法可以帮助我们发现数据中的模式和结构。然而,对于结果的评估是十分重要的,因为它可以帮助我们了解聚算法的性能和效果。在本指南中,我们将讨论如何使用Python进行性能评估。 ## 2. 流程概述 为了实现性能评估,我们需要经过以下几个
原创 2023-09-18 11:59:34
163阅读
1.的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中K-Means算法是一种聚类分析的算法,主要是来计算数据的算法,主要通过不断地取离种子点最近均值的算法如上图中,A,B,C,D,E是五个在图中点。灰色的为中心点。所以也就是有两个种子点。把五个图中点分别聚合到灰色的中心点。(假设A,B,C,D,E都为二维坐标点(x1,y1)…(x5,y5))然后,K-Means的算
(Clustering)简单来说就是一种分组方法,将一事物中具有相似性的个体分为一用的算法。具体步骤如下:从n...
原创 2022-12-18 01:06:50
1479阅读
算法的评估数据的依赖于实际需求, 同时也依赖于数据的特征度量以及评估数据相似性的方法。相比于监督学习, 非监督学习通常没有标注数据,** 模型、 算法的设计**直接影响最终的输出和模型的性能。 为了评估不同聚算法的性能优劣, 我们需要了解常见的数据簇的特点。以中心定义的数据簇:这类数据集合倾向于球形分布, 通常中心被定义为质心, 即此数据簇中所有点的平均值。 集合中的数据到中心的距离相比
转载 2024-04-29 17:49:49
170阅读
K-meansng在coursera的机器学习课上已经讲过K-means,这里不再赘述高斯混合模型问题描述问题:给定训练集\(\{x^{(1)},\cdots,x^{(m)}\}\),每个数据没有任何标签。这是一个无监督学习问题模型描述首先,我们认为每个数据所属的类别满足一定的概率分布。定义隐含随机变量(latent random variable)\(z^{(1)},\cdots,z
算法笔记:Kmeans算法简介1. Kmeans算法简介2. Kmeans算法细节3. Kmeans算法收敛性证明4. Kmeans算法的变体1. cosine距离变体2. 点积距离版本5. Kmeans算法实现1. 基于sklearn的kmeans算法2. python自实现6. 参考链接1. Kmeans算法简介Kmeans算是非常经典的一个算法了,早已经被写到教科书里面了,不过很不幸
转载 2024-07-08 11:47:10
111阅读
# 效果的评估Python指南 是无监督学习的一种重要方法,用于将数据分为多个组。评估效果则是检验结果是否能够有效地反映数据的真实结构。在本文中,我们将详细介绍如何实现效果的评估,并使用Python代码演示每一步。以下是整个流程的概览: | 步骤 | 描述 | | --- | ----- | | 1 | 准备数据 | | 2 | 执行算法 | | 3 | 选择评估指标
原创 10月前
186阅读
1. 密度方法2. DBSCAN DBSCAN(Density-Based Spatial Clustering of  Applications with Noise)。一个比较有代表性的基于密度的算法。与划分和层次方法不同,它将簇定义为 密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的数据中发现任意形状的。 2.1 DB
在数据分析挖掘过程中常用的算法有1.K-Means,2.K-中心点,3.系统.1.K-均值在最小误差基础上将数据划分为预定的数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近的点最为簇中心点.3.系统又叫多层次,分类是由高到低(可以想象下二叉树这种结构),越靠后,包含的
算法性能评估性能评估(Clustering Evaluation and Assessment)——沙沙的兔子模型评估——howhigh参照我的另一篇博文:第11章 K-means(文档聚类分析)分类问题,我们可以直接计算被错误分类的样本数量,这样可以直接算出分类算法的准确率。问题,由于没有标记,所以不能使用绝对数量的方法进行性能评估。更典型地,针对k-均值算法,我们可以选择k的数
1 : 分类算法的评价标准  p准确率=tp/(tp+fp)     正预测为正/正预测为正+负预测为正   r召回率=tp/(tp+fn)       正预测为正/正预测为正+正预测为负   F1=2pr/(p+r
在前面两篇文章中,笔者已经介绍了两种算法,同时还通过sklearn完成相应的示例。但是,到目前为止笔者还没有介绍如何来的经过进行评估。这接下来的这篇文章中,笔者将会介绍在算法中几种常见的评估
原创 2021-12-28 16:27:45
2265阅读
在前面两篇文章中,笔者已经介绍了两种算法,同时还通过sklearn完成相应的示例
原创 2022-01-18 09:59:25
2223阅读
''' :分类(class)与(cluster)不同,分类是有监督学习模型,类属于无监督学习模型。 讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧氏距离。(用两个样本对应特征值之差的平方和之平方根, 即欧氏距离,来表示这两个样本的相似性) 1.K均值算法: 第一步:随机选择k个样
  
原创 2022-11-16 19:46:52
423阅读
Ci 的所有样本的平均距离 bij,称为样本i 与簇 Ci 的不相似度。定义为样本 i 的簇间不相似度:bi=min{bi1, bi2, …其他样本的平均
原创 2024-06-16 21:26:34
716阅读
  • 1
  • 2
  • 3
  • 4
  • 5