引言在之前的一篇文章中,我介绍了基于的图像分割,在这一篇文章中,我会介绍另一种图像分割的方法–基于图的图像分割。具体用到的方法是谱。OK, 我们先来简单了解一下谱。谱(spectral clustering)首先我们需要明确一点,谱虽然是一种的模型,但是事实上,它的设计初衷确是解决一个关于切割图的问题,因此它的算法也是从图论中演化而来的。具体来说,它的主要思想就是将所有的数
# Python图谱 聚类分析是一种常见的数据分析技术,它可以将相似的数据点归为同一,从而帮助我们更好地理解数据的结构。在这篇文章中,我们将学习如何使用Python实现聚类分析,并用可视化的方式展示结果。 ## 的基本概念 分析的核心思想是将数据集中的对象进行分组,使得同一组内部的对象相似度高,而不同组之间的对象相似度低。应用场景包括市场细分、社交网络分析等。 ###
原创 2024-09-04 03:28:19
71阅读
1写在前面最近在画热图(heatmap)时,遇到一个问题,就是如果画热图时导入的基因过多,基因名就会重叠在一起,根本没法看,非常影响颜值。? 这里提供一种基于ComplexHeatmap的解决方案,大家往下看吧。?2用到的包rm(list = ls()) library(tidyverse) library(circlize) library(ComplexHeatmap)3示例数据这里我们随机生
# 网络的平均系数 随着网络科学的快速发展,如何衡量网络中节点间的连接性成为研究的热点之一。平均系数是一个重要的指标,用于描述节点相互连接的紧密程度。在这篇文章中,我们将探讨网络的平均系数,并提供一个Python代码示例来计算这一指标。 ## 什么是平均系数? 系数是指一个节点的邻居中实际形成的边与可能形成的边的比值。简单来说,系数越高,说明节点的邻居之间连接
原创 2024-10-09 05:53:59
554阅读
1. 知识图谱生命周期  从行业知识图谱的全生命周期来看,可以分为知识建模,知识获取,知识融合,知识存储,知识计算和知识应用6个部分。1.1 知识建模  知识建模即建立知识图谱的模式层(也称本体层、动态本体层),行业知识图谱依托于模式层对整个知识图谱的结构进行定义,因此需要保证可靠性。   通常采用两种方法:一种是自顶向下的方法,专家手工编辑形成数据模式;另一种是自底向上的方法,基于行业现有的标准
概述知识图谱定义,包含概念、实例、分类、属性、事实。知识图谱分类 4大、人工构建、基于维基构建、网页获取、融合多方面知识(包括众包、手工、维基构造)其中维基中的Wikipedia 百度百科 互动百科属于 半结构化 知识图谱而 dbpedia yago babelnet wikidata xlore cn-dbpedia 属于结构化 知识图谱CYC句法:常量cyc 中包含有很多常量,如图中所示
    上篇k-means算法却是一种方便好用的算法,但是始终有K值选择和初始中心点选择的问题,而这些问题也会影响的效果。为了避免这些问题,我们可以选择另外一种比较实用的算法-层次算法。顾名思义,层次就是一层一层的进行,可以由上向下把大的类别(cluster)分割,叫作分裂法;也可以由下向上对小的类别进行聚合,叫作凝聚法;但是一般用的比较多
基于层次的算法(Hierarchical Clustering)当不知道应该分为几类时,使用层次类比较适合。层次会构建一个多层嵌套的分类,类似一个树状结构。可以选择一个数量,根据需求对树状图中画一条水平线,得到对应的。但层次法容易受到噪声和数据维度过高的影响。自底向上的从点作为个体簇开始,迭代时每一步合并两个最接近的簇,直到所有样本合并为一簇。算法步骤:每个样本点自成一
转载 2023-12-25 06:26:56
67阅读
是机器学习中一种重要的 无监督算法,它可以将数据点归结为一系列特定的组合。理论上归为一的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。基于不同的学习策略,算法可分为多种类型:K均值算法(K-means)k-means算法是一种简单的迭代型算法,采用距离作为相似性
同时考虑每个视图的误差矩阵,这种方法能够准确地识别数据点的结构,即使在数据质量参差不齐的情况下也能表现良好。在数据科学领域,多视图谱
原创 2024-08-03 22:14:48
67阅读
本文完成程序及测试数据集详细见:https://github.com/HanXia001/k-means-python3-本文主要内容:                1.k-means解决的问题;                2.k-m
划分Kmeans原理(1)任意选择k个对象作为初始的簇中心;(2)根据距离(欧式距离)中心最近原则,将其他对象分配到相应中;(3) 更新簇的质心,即重新计算每个簇中对象的平均值;(4) 重新分配所有对象,直到质心不再发生变化  调包实现import time import pandas as pd from sklearn import preprocessing da
转载 2023-07-28 13:11:42
219阅读
算法分类:(1)划分算法:也称为基于距离的算法,此类算法中,簇的数量是随机选择的或最初给定的。属于这一的算法K-Meansl,PAM,CLARANSI等。K-means算法的不足之处在于它要多次扫描数据库,此外,它只能找出球形的,而不能发现任意形状的。还有,初始质心K的选择对结果有较大的影响,该算法对噪声很敏感。划分方法具有线性复杂度,的效率高的优点。然而,由于它要
转载 2024-02-29 10:46:39
48阅读
尽管基于划分的算法能够实现把数据集划分成指定数量的簇,但是在某些情况下,需要把数据集划分成不同层上的簇:比如,作为一家公司的人力资源部经理,你可以把所有的雇员组织成较大的簇,如主管、经理和职员;然后你可以进一步划分为较小的簇,例如,职员簇可以进一步划分为子簇:高级职员,一般职员和实习人员。所有的这些簇形成了层次结构,可以很容易地对各层次上的数据进行汇总或者特征化。另外,使用基于划分的算法(
菜鸟一枚,编程初学者,最近想使用Python3实现几个简单的机器学习分析方法,记录一下自己的学习过程。关于KMeans算法本身就不做介绍了,下面记录一下自己遇到的问题。一   、关于初始中心的选取 初始中心的选择一般:(1)随机选取(2)随机选取样本中一个点作为中心点,在通过这个点选取距离其较大的点作为第二个中心点,以此类推。(3)使用层次等算法更新出初
分层,又称层次、系统,顾名思义是指过程是按照一定层次进行的。数据分析过程中如果需要按变量(标题),那么此时就应该使用分层,并且结合树状图进行综合判定分析。比如当前有8个裁判对于300个选手进行打分,试图想对8个裁判进行,以挖掘出裁判的打分偏好风格类别情况,此时则需要进行分层。分层的基本思想是:在聚类分析的开始,每个样本(或变量)单独作为一组,然后按照某种方法
转载 2024-05-12 17:55:20
180阅读
k-means 接下来是进入算法的的学习,算法属于无监督学习,与分类算法这种监督学习不同的是,算法事先并不需要知道数据的类别标签,而只是根据数据特征去学习,找到相似数据的特征,然后把已知的数据集划分成几个不同的类别。比如说我们一堆树叶,对于分类问题来说,我们已经知道了过去的每一片树叶的类别。比如这个是枫树叶,那个是橡树叶,经过学习之后拿来一片新的叶子,你看了一眼,然后说这是枫树
转载 2023-08-20 23:25:47
175阅读
python实现层次 层次(Hierarchical Clustering)一.概念  层次不需要指定聚的数目,首先它是将数据中的每个实例看作一个,然后将最相似的两个合并,该过程迭代计算只到剩下一个为止,由两个子类构成,每个子类又由更小的两个子类构成。如下图所示:二.合并方法在中每次迭代都将两个最近的进行合并,这个间的距离计
阅读前提:了解K-means算法了解Python基本语句知道什么是txt文件code需要当前目录下添加一个city.txt文件。#coding=utf-8 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans #从磁盘读取城市经纬度数据 X = [] f = open('cit
转载 2023-08-30 15:09:29
100阅读
一、python代码''' Author: Vici__ date: 2020/5/13 ''' import math ''' Point,记录坐标x,y和点的名字id ''' class Point: ''' 初始化函数 ''' def __init__(self, x, y, name, id): self.x = x # 横坐标
转载 2023-07-18 13:43:45
90阅读
  • 1
  • 2
  • 3
  • 4
  • 5