数据挖掘的步骤 我们使用sklearn进行虚线框内的工作(sklearn也可以进行文本特征提取)。通过分析sklearn源码,我们可以看到除训练,预测和评估以外,处理其他工作的类都实现了3个方法:fit、transform和fit_transform。从命名中可以看到,fit_transform方法是先调用fit然后调用transform,我们只需要关注fit方法和transform方法即可。
转载
2023-12-02 16:16:28
46阅读
什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小。 聚类方法的分类如下图所示: 一、如何计算样本之间的距离?样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距离时,需要将不同类型属性分开计算,最后统一相加,得到两个样本之间的距离
无监督算法简介就是依靠数据之间的相似度,形成数据的类别。(下图有些是网上扒的,如有侵权望告知,立删)层次聚类比如有7个数据点,A,B,C,D,E,F,G。我们采用数据的欧式距离作为相似度(距离越小越相似): 将数据分别两两计算相似度: 得到BC的距离最小,这样我们就得到一个新的集合或者说是类:(B,C)。这样我们下一次计算相似度时,只有6个元素了:A,(B,C),D,E,F,G。然后两两计算相似度
转载
2024-08-20 20:23:38
13阅读
机器学习中存在着三类模型,有监督学习、无监督学习和半监督学习,他们有何区别呢?其实有无标签是区分监督学习与无监督学习的关键,这里的有无标签,指的是有没有事前确定标签。1.有监督学习有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果。借此,模型就有了预知能力
机器学习按照方法来分类,可以分成四类,分别是:监督学习、无监督学习、半监督学习和强化学习。1 基本概念监督学习(supervised learning): 利用训练集数据对其进行训练得到相应的正确对应关系,从而测试集数据在得到的对应关系下进行运算得到相应的正确结果。无监督学习(unsupervised learning): 数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。半监督学习:
转载
2024-05-29 15:29:08
51阅读
无监督学习相对监督学习(输入进x,有对应的y),没有标注聚类k均值基于密度的聚类最大期望聚类降维潜语义分析(LSA)主成分分析(PCA)奇异值分解(SVD) k 均值(k-means)是聚类算法中最为简单、高效的,属于无监督学习算法核心思想:由用户指定k个初始质心(initial centroids),以作为聚类的类别(cluster),重
从上图我们看出,对于复杂的数据,低阶多项式往往是欠拟合的状态,而高阶多项式则过分捕捉噪声数据的分布规律,而噪声数据
总览之前我们讲的网络模型都是监督学习,这一讲我们要讲的是无监督学习。以下是本讲的总览无监督学习与监督学习最大的不同就是我们只有数据,没有任何多余的标注,我们要做的就是学习数据中隐藏的某些结构。而生成模型就属于无监督学习的一种生成模型生成模型的目标是给定训练数据,希望能获得与训练数据相同的新数据样本。我们的目标是找到训练数据的分布函数生成模型在很多场景有非常好的应用我们可以对生成模型进行分类,在本讲
转载
2024-09-12 08:54:24
242阅读
模型评价的目的对于解决同一问题的不同模型,通过比较模型指标来比较模型之间的优劣,选取最优模型对于同一模型,通过比较模型指标来调整模型参数模型评价的基本思路评价机器学习模型的基本思维是把数据分为没有交集,且具有相同普遍性的训练集(Training Set)和测试集(Testing Set),这种做法被称为交叉验证(Cross Validation).其中,训练集用于训练模型,训练好的模型对测试集的数
【论文笔记】Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images摘要一、介绍二、相关工作2.1 基于特征的图像拼接2.2 基于学习的图像拼接2.3 深度单应方案三、无监督粗图像对齐3.1 无监督单应性3.2 拼接空间变换层四、无监督粗图像重建4.1 低分辨率图像重建分支4.2 高分辨率图像重建分支
转载
2024-04-15 10:31:28
221阅读
这篇文章确实写的不错,总结无监督学习的方法如下:1)自编码器2)聚类学习3)生成对抗网络4)设计不需要标签的无监督学习任务,直接从无标签的数据中学习模型视觉表征:通过解决拼图问题来进行无监督学习确实是一个聪明的技巧。将图像分割成了拼图,并且训练深度网络来解决拼图问题。视觉表征:通过图像补丁和布局来进行无监督学习也是一个聪明的技巧。让同一幅图像上的两个补丁紧密分布。这些补丁在统计上来讲是同一个物体。
分词算法中,一般都需要一个词典,但这些词典往往很难覆盖所有的词,特别是在一些专业领域,甚至有超过40%的词都不在词典里面,这样首先就需要“学习”大量的新词,否则分词准确性很难提高,进一步的,有研究就干脆不要词典了,由算法自动从大量的语料中学得一个词典,这就是统计分词,或者成为无字典分词。一般就只预设一个小规模的词典,
转载
2024-05-06 19:18:52
55阅读
Fully Convolutional Networks for Semantic Segmentation将当前分类网络(AlexNet,VGGNet和GoogleNet)修改为全卷积网络,通过对分割任务进行微调,将它们学习的表征转移到网络中。然后,定义了一种新的架构,将深度、粗糙的网络层的语义信息和浅的、精细的网络层的表征信息结合起来,来生成精确和详细的分割。即在上采样的每一个阶段通过融合(简
转载
2024-07-12 04:39:02
55阅读
无监督学习一、 无监督学习(unsupervised learning)1. 典型例子:聚类(Clustering)2.无监督学习的重要因素二、 K均值聚类(K-means 聚类)1. K均值聚类算法第一步:初始化聚类质心第二步:把每个待聚类数据放入唯一一个聚类集合中第三步:根据聚类结果,更新聚类质心第四步:算法循环迭代,直到满足条件2. 聚类迭代结束条件3. K均值聚类算法的另一个视角:最小化
本节书摘来自华章社区《Hadoop大数据分析与挖掘实战》一书中的第1章,第1.4节数据挖掘建模过程,作者张良均 樊哲 赵云龙 李成华 1.4 数据挖掘建模过程从本节开始,将以餐饮行业的数据挖掘应用为例来详细介绍数据挖掘的建模过程,如图1-1所示。 1.4.1 定义挖掘目标针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此必须分析应用领域,包括
转载
2023-10-03 11:48:05
48阅读
数据挖掘主要由以下步骤组成:1.数据预处理数据预处理阶段主要为数据挖掘准备好数据。一般来讲主要包括数据清理和数据集成。对于大量的数据,难免存在噪声或不一致的数据。对于存在这些问题的数据源,我们必须进行数据预处理。数据挖掘面对的挖掘对象的种类越来越多(半结构数据、web数据、来自云的数据等各种数据形式层出不穷)。2.数据挖掘一旦对数据的预处理工作完成,数据挖掘工作就开始了。这是整个数据挖掘过程的基本
转载
2023-09-01 08:25:55
76阅读
引言数据挖掘基础课程告一段落,接下来要开始Hadoop的课程学习。课程准备的第一步,便是环境搭建,包括CentOS系统准备、jdk、maven、sql、tomcat、eclipse(可选)的安装。接下来依次进行。本次安装CentOS、jdk、eclipse的安装。CentOS系统准备使用的机器是暗影精灵3,系统是win10。上学期学习Linux时,试图安装Win10+Ubuntu的双系统,但是以失
转载
2023-09-13 10:43:18
42阅读
第一章节是从一个餐厅的角度出发,引出来许许多多的相关概念。第一个概念就是什么是数据挖掘,这个简单,望文生义就好了。它的名字本身就诠释了它的内涵。基本任务还是得记一下:1分类与预测。(有点像量化,股票交易)2聚类分析()3关联规则()4时序模式()5偏差检测()关于定义挖掘目标,就是什么菜品推荐,门店开在哪,这些问题。可以不多说。关于数据取样,没啥好说的。 然后重点在后面,数据质量分析:有
转载
2023-10-03 11:47:47
7阅读
本节书摘来自华章社区《Hadoop大数据分析与挖掘实战》一书中的第2章,第2.1节概述,作者张良均 樊哲 赵云龙 李成华 ,更多章节内容可以访问云栖社区“华章社区”公众号查看2.1 概述2.1.1 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。Hadoop以分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce
转载
2023-08-10 17:41:03
71阅读
1.聚类简介主要思想就是对一堆未标记的样本,进行相似度度量,然后进行分簇的过程。ps:聚类属于无监督学习。2.样本距离的度量闵可夫斯基距离:ps:当p = 负无穷时,公式变为样本特征差值最小的绝对值,(可以提出最小项,然后化简得出)。ps:当p = 1时,公式变为样本特征之间距离绝对值求和,又称曼哈顿距离。ps:当p = 2时,公式变为欧氏距离。(最熟悉的一种)ps:当p = 正无穷时,公式变为样
转载
2024-04-12 06:10:26
56阅读