引言在之前的一篇文章中,我介绍了基于的图像分割,在这一篇文章中,我会介绍另一种图像分割的方法–基于图的图像分割。具体用到的方法是谱。OK, 我们先来简单了解一下谱。谱(spectral clustering)首先我们需要明确一点,谱虽然是一种的模型,但是事实上,它的设计初衷确是解决一个关于切割图的问题,因此它的算法也是从图论中演化而来的。具体来说,它的主要思想就是将所有的数
# Python图谱 聚类分析是一种常见的数据分析技术,它可以将相似的数据点归为同一,从而帮助我们更好地理解数据的结构。在这篇文章中,我们将学习如何使用Python实现聚类分析,并用可视化的方式展示结果。 ## 的基本概念 分析的核心思想是将数据集中的对象进行分组,使得同一组内部的对象相似度高,而不同组之间的对象相似度低。应用场景包括市场细分、社交网络分析等。 ###
原创 2024-09-04 03:28:19
71阅读
1写在前面最近在画热图(heatmap)时,遇到一个问题,就是如果画热图时导入的基因过多,基因名就会重叠在一起,根本没法看,非常影响颜值。? 这里提供一种基于ComplexHeatmap的解决方案,大家往下看吧。?2用到的包rm(list = ls()) library(tidyverse) library(circlize) library(ComplexHeatmap)3示例数据这里我们随机生
# 网络的平均系数 随着网络科学的快速发展,如何衡量网络中节点间的连接性成为研究的热点之一。平均系数是一个重要的指标,用于描述节点相互连接的紧密程度。在这篇文章中,我们将探讨网络的平均系数,并提供一个Python代码示例来计算这一指标。 ## 什么是平均系数? 系数是指一个节点的邻居中实际形成的边与可能形成的边的比值。简单来说,系数越高,说明节点的邻居之间连接
原创 2024-10-09 05:53:59
554阅读
1. 知识图谱生命周期  从行业知识图谱的全生命周期来看,可以分为知识建模,知识获取,知识融合,知识存储,知识计算和知识应用6个部分。1.1 知识建模  知识建模即建立知识图谱的模式层(也称本体层、动态本体层),行业知识图谱依托于模式层对整个知识图谱的结构进行定义,因此需要保证可靠性。   通常采用两种方法:一种是自顶向下的方法,专家手工编辑形成数据模式;另一种是自底向上的方法,基于行业现有的标准
概述知识图谱定义,包含概念、实例、分类、属性、事实。知识图谱分类 4大、人工构建、基于维基构建、网页获取、融合多方面知识(包括众包、手工、维基构造)其中维基中的Wikipedia 百度百科 互动百科属于 半结构化 知识图谱而 dbpedia yago babelnet wikidata xlore cn-dbpedia 属于结构化 知识图谱CYC句法:常量cyc 中包含有很多常量,如图中所示
基于层次的算法(Hierarchical Clustering)当不知道应该分为几类时,使用层次类比较适合。层次会构建一个多层嵌套的分类,类似一个树状结构。可以选择一个数量,根据需求对树状图中画一条水平线,得到对应的。但层次法容易受到噪声和数据维度过高的影响。自底向上的从点作为个体簇开始,迭代时每一步合并两个最接近的簇,直到所有样本合并为一簇。算法步骤:每个样本点自成一
转载 2023-12-25 06:26:56
67阅读
    上篇k-means算法却是一种方便好用的算法,但是始终有K值选择和初始中心点选择的问题,而这些问题也会影响的效果。为了避免这些问题,我们可以选择另外一种比较实用的算法-层次算法。顾名思义,层次就是一层一层的进行,可以由上向下把大的类别(cluster)分割,叫作分裂法;也可以由下向上对小的类别进行聚合,叫作凝聚法;但是一般用的比较多
是机器学习中一种重要的 无监督算法,它可以将数据点归结为一系列特定的组合。理论上归为一的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。基于不同的学习策略,算法可分为多种类型:K均值算法(K-means)k-means算法是一种简单的迭代型算法,采用距离作为相似性
同时考虑每个视图的误差矩阵,这种方法能够准确地识别数据点的结构,即使在数据质量参差不齐的情况下也能表现良好。在数据科学领域,多视图谱
原创 2024-08-03 22:14:48
67阅读
本文完成程序及测试数据集详细见:https://github.com/HanXia001/k-means-python3-本文主要内容:                1.k-means解决的问题;                2.k-m
划分Kmeans原理(1)任意选择k个对象作为初始的簇中心;(2)根据距离(欧式距离)中心最近原则,将其他对象分配到相应中;(3) 更新簇的质心,即重新计算每个簇中对象的平均值;(4) 重新分配所有对象,直到质心不再发生变化  调包实现import time import pandas as pd from sklearn import preprocessing da
转载 2023-07-28 13:11:42
219阅读
算法分类:(1)划分算法:也称为基于距离的算法,此类算法中,簇的数量是随机选择的或最初给定的。属于这一的算法K-Meansl,PAM,CLARANSI等。K-means算法的不足之处在于它要多次扫描数据库,此外,它只能找出球形的,而不能发现任意形状的。还有,初始质心K的选择对结果有较大的影响,该算法对噪声很敏感。划分方法具有线性复杂度,的效率高的优点。然而,由于它要
转载 2024-02-29 10:46:39
48阅读
尽管基于划分的算法能够实现把数据集划分成指定数量的簇,但是在某些情况下,需要把数据集划分成不同层上的簇:比如,作为一家公司的人力资源部经理,你可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你可以进一步划分为较小的簇,例如,职员簇可以进一步划分为子簇:高级职员,一般职员和实习人员。所有的这些簇形成了层次结构,可以很容易地对各层次上的数据进行汇总或者特征化。另外,使用基于划分的算法(
菜鸟一枚,编程初学者,最近想使用Python3实现几个简单的机器学习分析方法,记录一下自己的学习过程。关于KMeans算法本身就不做介绍了,下面记录一下自己遇到的问题。一   、关于初始中心的选取 初始中心的选择一般:(1)随机选取(2)随机选取样本中一个点作为中心点,在通过这个点选取距离其较大的点作为第二个中心点,以此类推。(3)使用层次等算法更新出初
准备说明:Python代码运行,需要有数据集,文章最后有csv格式的数据集,请自行下载。理论知识讲解:模糊理论模糊控制是自动化控制领域的一项经典方法。其原理则是模糊数学、模糊逻辑。1965,L. A. Zadeh发表模糊集合“Fuzzy Sets”的论文, 首次引入隶属度函数的概念,打破了经典数学“非0即 1”的局限性,用[0,1]之间的实数来描述中间状态。很多经典的集合(即:论域U内的某个元素是
转载 2024-08-13 17:42:44
39阅读
下面是几个城市的GDP等信息,根据这些信息,写一个SOM网络,使之对下面城市进行。并且,将结果画在一个二维平面上。 //表1中,X。为人均GDP(元);X2为工业总产值(亿元);X。为社会消费品零售总额(亿元);x。为批发零售贸易总额(亿元);x。为地区货运总量(万吨),表1中数据来自2002年城市统计年鉴。//城市 X1 X2 X3 Xa X5 北京 27527 2738.30 1
转载 2023-06-20 14:47:21
122阅读
本例中,使用用户注册时间(注册天数reg_length)、活跃(最近活跃间隔天数rec_act_length、近7日活跃天数act_days)和变现(近7日日均广告点击量ad_pd、近7日日均阅读量read_pd)三个维度进行。库导入在这里用到了os用来处理路径,numpy、pandas都是数据分析处理的常用库,matplotlib作简单的图形看指标分布,重头戏就是sklearn啦,用来完成我
转载 2024-03-04 01:25:34
29阅读
一、python代码''' Author: Vici__ date: 2020/5/14 ''' import math ''' Point,记录坐标x,y和点的名字id ''' class Point: ''' 初始化函数 ''' def __init__(self, x, y, name): self.x = x # 横坐标
转载 2023-08-20 10:00:57
60阅读
简介文章将介绍谱(spectral clustering)的基本算法,以及在matlab下的代码实现。介绍内容将包括:从图分割角度直观理解谱算法步骤数据以及实现代码本文将不会涉及细节化的证明和推导,如有兴趣可参考july大神的文章从拉普拉斯矩阵说到谱.对谱的理解这一节将从图分割的角度直观理解谱。不过,因为本人是从事社交媒体分析的,将从一种社会关系网络的角度来介绍网络图
  • 1
  • 2
  • 3
  • 4
  • 5