什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小。 聚类方法的分类如下图所示: 一、如何计算样本之间的距离?样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距离时,需要将不同类型属性分开计算,最后统一相加,得到两个样本之间的距离
数据挖掘的步骤 我们使用sklearn进行虚线框内的工作(sklearn也可以进行文本特征提取)。通过分析sklearn源码,我们可以看到除训练,预测和评估以外,处理其他工作的类都实现了3个方法:fit、transform和fit_transform。从命名中可以看到,fit_transform方法是先调用fit然后调用transform,我们只需要关注fit方法和transform方法即可。
转载
2023-12-02 16:16:28
46阅读
从上图我们看出,对于复杂的数据,低阶多项式往往是欠拟合的状态,而高阶多项式则过分捕捉噪声数据的分布规律,而噪声数据
分词算法中,一般都需要一个词典,但这些词典往往很难覆盖所有的词,特别是在一些专业领域,甚至有超过40%的词都不在词典里面,这样首先就需要“学习”大量的新词,否则分词准确性很难提高,进一步的,有研究就干脆不要词典了,由算法自动从大量的语料中学得一个词典,这就是统计分词,或者成为无字典分词。一般就只预设一个小规模的词典,
转载
2024-05-06 19:18:52
52阅读
1 什么是无监督学习现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。某个人需
转载
2024-04-25 13:55:18
128阅读
无监督学习的核心思想是构建出一个与待测样本最相近的“模板”与之比较,根据像素或特征的差异性实现缺陷得到检出与定位,根据维度不同,分为两种方法:(1)基于图像相似度的方法 该方法在图像像素层面进行比较,核心思想是重建出与输入样本最相近的正常图像,二者仅在缺陷区域有差别。生成图与输入图之间的差
转载
2024-07-08 18:55:38
181阅读
图神经网络的相关知识机器学习的分类按有无标签分类监督学习监督学习指的是每个训练数据的样本都有标签,通过标签可以指导模型进行学习,学到具有判别性的特征,然后对未知样本进行预测。翻译成人话:班里的人分为内卷人和摆烂人,有一个机器会自动观察内卷人的成绩和摆烂人的成绩,等观察的人够多了之后,他就可以根据成绩判断哪个是摆烂人哪个是内卷人,这样机器看到小废物rytter的成绩后就能判断出rytter是个摆烂人
转载
2023-10-19 10:54:25
122阅读
文章目录前言一、数据介绍二、实验代码1.将语料转存为文本2.用Kenlm统计ngram3.加载Kenlm的ngram统计结果4.过滤ngram5.构建字典树,做预分词,得到候选词6.候选词回溯7.输出结果文件 前言 这篇文章是对发现新词 | NLP之无监督方式构建词库(三)的性能优化。主要改动包括如下两个方面:1、使用了语言模型工具kenlm的count_ngrams程序来统计ngram。由于
转载
2024-03-08 08:48:34
77阅读
编译 | reason_W编辑 | 明 明【AI 科技大本营导读】近日,OpenAI 在其官方博客发文介绍了他们最新的自然语言处理(NLP)系统。这个系统是可扩展的、与任务无关的,并且在一系列不同的 NLP 任务中都取得了亮眼的成绩。但该方法在计算需求等方面仍存在改进的空间。下面我们来看他们的博文:我们即将发布一个可扩展的,与任务无关的自然语言处理系统,该系统在一系列不同的语言任务上都取得了目前最
转载
2024-05-21 14:24:52
37阅读
无监督算法简介就是依靠数据之间的相似度,形成数据的类别。(下图有些是网上扒的,如有侵权望告知,立删)层次聚类比如有7个数据点,A,B,C,D,E,F,G。我们采用数据的欧式距离作为相似度(距离越小越相似): 将数据分别两两计算相似度: 得到BC的距离最小,这样我们就得到一个新的集合或者说是类:(B,C)。这样我们下一次计算相似度时,只有6个元素了:A,(B,C),D,E,F,G。然后两两计算相似度
转载
2024-08-20 20:23:38
13阅读
1、类型主要有两种类型:数据集变换和聚类。无监督变换:降维:接受数据的高维表示,找到新的表示方法,以用较少的特征概括重要特性。找到“构成”数据的各个组成部分。例如,文本的主题提取。聚类:将数据划分成不同的组,每组包含相似的物项2、降维1.主成分分析(PCA)一种旋转数据集的方法,旋转后的特征在统计上不相关。旋转后,通常根据新特征对数据集的重要性来选择它的一个子集。主成分方差最大的方向为“成分1”,
转载
2023-12-09 12:36:49
73阅读
这篇是七月在线问答系统项目中使用到的一个算法,由于当时有总结,就先放上来了后期再整理。Doc2vec Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练样本,Doc2vec是一个无监督学习算法,该算法用于预测一个向量来表示不同的文档,该模型的结构潜在的克服了词袋模型的缺点。 D
转载
2024-09-14 08:40:47
193阅读
第3章 深度神经网络基础3.1 监督学习和无监督学习监督学习(supervised learning):提供一组输入数据和其对应 的标签数据,然后搭建一个模型,让模型在通过训练后准确地找到输入数据和标签数据之间的最优映射关系,在输入新的数据后,模型能够通过之前学到的最优映射关系,快速地预测出这组新数据的标签。这就是一个监督学习的过程3.1.1监督学习监督学习的主要应用场景:回归问题和分类问题回归问
转载
2024-02-11 21:16:54
43阅读
1、无监督学习(Unsupervised Learning)1.1、定义利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。1.2、两大任务聚类(clustering)降维(Dimension Reduction)1.3、聚类(clustering)1.3.1、定义聚类,就是根据数据的“相似性”将数据分为多类的过程。估算两个不同样本之间的相似性,通 常使用的方法就是计算两个样本之
转载
2024-01-29 17:39:47
93阅读
这篇论文有以下三点贡献:1、展示了如何从预训练语言模型中构建知识图谱。2、提出了一种无监督的两阶段方法:MAMA。3、构建了一类全新的知识图谱——开放知识图谱1. 背景介绍简单介绍一下知识图谱:现有大型知识图谱,诸如Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储。如下图所示,每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系。这样,美国作家马克·吐温的
任务* 了解以下概念: > 监督式学习 > 非监督式学习* 了解一种数据挖掘(机器学习)算法,并了解案例有监督学习和无监督学习构建机器学习模型包括:选择建模技术,并在数据集中应用该技术。从高层次上区分,有两种类型的建模技术:监督学习和无监督学习。▲ 基本流程:准备原料--> 模型学习 --> 模型评价构建模型之后,使用标准
转载
2024-07-16 22:46:18
72阅读
# 学习无监督NLP的完整指南
## 文章结构
1. 引言
2. 无监督NLP流程概述
3. 实现步骤详细说明
- 数据准备
- 特征提取
- 模型训练
- 结果分析
4. 总结
## 引言
在自然语言处理(NLP)的领域,无监督学习是非常重要的一种方法。对于刚入行的小白来说,理解无监督学习的基本概念和实现流程非常关键。本文将详细介绍如何实现无监督的NLP工
兄弟萌,我咕里个咚今天又杀回来了,有几天时间可以不用驻场了,喜大普奔,终于可以在有网的地方码代码了,最近驻场也是又热又心累啊,抓紧这几天,再更新一点的新东西。今天主要讲一下非监督学习,你可能要问了,什么是非监督学习,我的理解就是不会给样本标签的,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。这个可以用来干什么,举个例子,在工业场景瑕疵检测的运用中,由于良品的数量远
目录前言:标签名称替换类别预测自训练总结前言:在训练模型的时候,比如分类任务等等,都需要有标签数据进行监督学习,即使是要少量的标签数据,也可采用半监督的方式来提高模型的泛化性,关于一些最新的半监督学习可以参看笔者另一篇博客:但是今天要分享的这篇论文是EMNLP20论文《Text Classification Using Label Names Only: A Language Model Self
目录无监督对比学习:Moco文章内容理解代码解释有监督对比学习:Supervised Contrastive Learning文章内容理解 无监督对比学习:Moco文章内容理解以下内容全部来自于:自监督学习-MoCo-论文笔记. 侵删 论文:Momentum Contrast for Unsupervised Visual Representation LearningCVPR 2020 最佳论
转载
2024-08-12 10:49:59
198阅读