近期在阅读跨模态检索相关论文时,碰到很多处理文本的网络结构以及一些名词不是很了解,通过我的学习现在将这些知识点记录总结。目录1、Word Segmentation(分词)分词工具:Jieba分词(常用),SnowNLP,LTP,HanNLP。分词的算法1.最大匹配算法2.考虑语义的算法 2、Spell Correction(拼写错误纠正)3、Filtering Words文本处理的流程1
在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,接下来将介绍如何从文本中有效地提取时间。   举个简单的例子,我们需要从下面的文本中提取时间:6月28日,杭州市统计局权威公布《2019年5月月报》,杭州市医保参保人数达到1006万,相比于2月份的989万,三个月暴涨16万人参保,傲视新一线城市。我们可以从文本有提取6月28日,2019年5月, 2月份这三个有效
一文详解Google最新NLP模型XLNet语言模型和BERT各自的优缺点在论文里作者使用了一些术语,比如自回归(Autoregressive, AR)语言模型和自编码(autoencoding)模型等,这可能让不熟悉的读者感到困惑,因此我们先简单的解释一下。自回归是时间序列分析或者信号处理领域喜欢用的一个术语,我们这里理解成语言模型就好了:一个句子的生成过程如下:首先根据概率分布生成第一个词,然
转载 2023-09-01 14:15:38
307阅读
主要分支介绍通讯、感知与行动是现代人工智能的三个关键能力,在这里我们将根据这些能力/应用对这三个技术领域进行介绍:计算机视觉(CV)、自然语言处理(NLP)在 NLP 领域中,将覆盖文本挖掘/分类、机器翻译和语音识别。机器人 分支一:计算机视觉计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的
在当今的技术世界,模型 NLP(自然语言处理)已经成为了重要的研究领域,它可用于文本生成、情感分析、机器翻译等众多应用。在搭建和实施模型 NLP 项目时,涉及到多个技术环节,从环境准备到性能优化各个步骤都需要小心处理。以下将详细记录我的实践过程,分享在这一过程中所遇到的挑战和解决方案。 ## 环境准备 首先,我们需要确保技术栈的兼容性,以下是版本兼容性矩阵的示例: | 软件/库
原创 5月前
35阅读
什么是模型?大规模模型(large-scale model)是近年来人工智能领域的一个热点话题,因为它们可以对自然语言处理(NLP)和其他任务进行更准确和深入的处理。由于模型需要庞大的计算资源和数据支持,目前只有少数公司和机构能够进行研究和开发。本文将介绍一些国内外的巨头公司如何在模型领域布局,以及他们的技术和应对措施。大规模模型是指参数数量巨大的神经网络,例如OpenAI的GPT系列和Go
目录一、颜色空间介绍1.1 RGB模型1.2 CMYK模型1.3 YUV(YCbCr)模型1.4 HSI模型1.5 HSV(HSB)模型二、颜色空间转换2.1 RGB转灰度图2.2 RGB和HSV相互转换2.3 RGB和HSI相互转换2.4 RGB和YUV相互转换参考一、颜色空间介绍颜色空间也称彩色模型(又称彩色空间或彩色系统)它的用途是在某些标准下用通常可接受的方式对彩色加以说明。&n
# 实现NLP与CV模型的流程指南 在当今的科技领域,NLP(自然语言处理)和CV(计算机视觉)模型成为了热门话题。这两种技术结合在一起,可以为我们带来更强大的应用能力,例如图像语义理解和多模态搜索等。本文将为刚入行的小白开发者提供一个清晰的实现流程,以及每一步的代码示例和解释。 ## 流程概述 以下是实现NLP与CV模型的步骤概述: | 步骤 | 描述 | |------|----
原创 2024-08-16 06:09:34
905阅读
一、引言在NLP-统计语言模型中已经简要介绍过语言模型的相关知识,该文中已阐述语言模型的应用场景和一些传统的实现方式,本文接着演示n-gram的另一种实现方式-神经网络,那这样的实现方式就是神经语言模型吗? 按本渣的理解,答案是否定的,神经语言模型是一个类指,其本质是在统计语言模型上的一种延伸和扩展,我可以只考虑上文n个词,也可以考虑下文n个词,也可以基于上下文考虑,具体的情况需要根据需求而定。二
如何实现医疗文本NLP模型 作为一名经验丰富的开发者,我将向你介绍如何实现医疗文本NLP模型。在这里,我会逐步告诉你整个流程,并提供相应的代码和注释。下面是整个过程的步骤: 步骤 | 目标 | 代码 --- | --- | --- 1 | 准备数据 | 2 | 文本预处理 | 3 | 特征提取 | 4 | 构建模型 | 5 | 训练模型 | 6 | 模型评估 | 接下来,我将详细
原创 2023-07-20 20:50:31
295阅读
最近在研究模型落地方案,看到目前模型比较好的一种微调方式是P-tuning,借鉴学习内容,作此记录。Part1前言Bert时代,我们常做预训练模型微调(Fine-tuning),即根据不同下游任务,引入各种辅助任务loss和垂直领域数据,将其添加到预训练模型中,以便让模型更加适配下游任务的方式。每个下游任务都存下整个预训练模型的副本,并且推理必须在单独的批次中执行。那么能不能将所有自然语言处理
转载 2023-09-15 12:04:38
974阅读
Brotli 是一种针对 Web 优化的新压缩算法,尤其是小型文本文档。Brotli 解压缩至少与 gzip 一样快,同时显着提高了压缩比。我们付出的代价是压缩比 gzip 慢得多。因此,Brotli 对于提供静态内容(如字体和 html 页面)最有效。Brotli是一种全新的数据格式,可以提供比Zopfli高20-26%的压缩比。据谷歌研究,Brotli压缩速度同zlib的Deflate实现大致
文本分类应该是最常见的文本语义分析任务了。首先它是简单的,几乎每一个接触过nlp的同学都做过文本分类,但它又是复杂的,对一个类目标签达几百个的文本分类任务,90%以上的准确率召回率依旧是一个很困难的事情。这里说的文本分类,指的是泛文本分类,包括query分类,广告分类,page分类,用户分类等,因为即使是用户分类,实际上也是对用户所属的文本标签,用户访问的文本网页做分类。几乎所有的机器学习方法都可
转载 2024-01-17 08:13:52
156阅读
  一、背景自从GPT-2的出现,预训练语言模型在许多文本生成任务上都取得了显著的效果。这些预训练语言模型大都采用自回归的方式从左到右依次生成单词,这一范式的主要局限在于文本生成的过程难以并行化,因此带来较大的生成延迟,这也限制了自回归模型在许多实时线上应用的广泛部署(例如搜索引擎的查询重写、在线聊天机器人等)。并且,由于训练过程与生成过程存在差异,自回归生成模型容易出现曝光偏差等问
如何实现CV模型NLP模型 作为一名经验丰富的开发者,我将向你介绍如何实现CV(计算机视觉)模型NLP(自然语言处理)模型。下面是整个流程的概览: 1. 数据准备 2. 模型选择 3. 模型训练 4. 模型评估 5. 模型优化 现在让我们逐步解释每个步骤以及需要执行的代码。 **1. 数据准备** 在实现CV和NLP模型之前,你需要准备好训练数据。数据的质量和数量对模型的性
原创 2023-12-13 11:55:56
488阅读
本文主要基于论文《Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing》对NLP的四个方式和Prompt的相关研究进行介绍和说明。1. NLP发展的四个范式1.1 四个范式P1:非神经网络时代的完全监督学习(Fully Supervised Le
什么是BERT模型?这个让全球开发者们为之欢欣鼓舞的新模型,全称是Bidirectional Encoder Representation from Transformers,即对Transformer的双向编码进行调整后的算法。这种预训练模型所针对的核心问题,就是NLP的效率难题。众所周知,智能语音交互要理解上下文、实现通顺的交流、准确识别对象的语气等等,往往需要一个准确的NLP模型来进行预
转载 2024-03-14 17:42:07
137阅读
# 自然语言处理与计算机视觉的模型解析 自然语言处理(NLP)和计算机视觉(CV)是当今人工智能领域的两个重要分支。随着深度学习技术的快速发展,尤其是模型(如GPT、BERT和CNN等)的广泛应用,这两者之间的界限逐渐模糊。本文将探讨NLP和CV模型的基本原理、应用场景以及它们之间的关联。 ## 1. 模型概述 模型通常是指具有大量参数的机器学习模型。这些模型通过在大规模数据集上训
原创 2024-10-03 06:39:32
151阅读
系统学习深度学习(七)--主流深度学习开源框架对比  分类: 深度学习(30)      转自:,本文做了相关修改。 参考论文: 《Comparative Study of Deep Learning Software Frameworks》
# 教你实现 NLP 模型的 Loss 计算 在自然语言处理(NLP)领域,训练大规模模型时,了解损失(Loss)的计算过程至关重要。损失函数可以评估模型的性能,并指导优化过程。本篇文章将会教你如何计算 NLP 模型的 Loss,涵盖从准备数据到计算损失的完整流程。 ## 1. 整体流程概述 以下是实现 NLP 模型损失计算的步骤: | 步骤 | 描述 | | ---- | ----
原创 9月前
252阅读
  • 1
  • 2
  • 3
  • 4
  • 5