在自然语言理解中,词(token)是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界。因此,每个NLP工作者都应掌握分词技术。本文要点如下:介绍中文分词的概念与分类;介绍常见的规则分词方法。01 分词的概念和分类“词”这个概念一直是汉语言学界纠
信息抽取?188非结构化数据; 抽取实体; 抽取关系;评估方法: F1-ScoreNER方法分类利用规则, 比如美国电话(?:\(?[0-9]{3}\)?[0-9]{3}[ -.]?[0-9]{4}) 投票模型, 统计每个单词的类型, 取频率最高的. 一般用作baseline利用分类模型1. 简单特征工程def get_feature(word: str): return np.array
转载 2023-10-31 10:47:01
43阅读
# NLP 英文短语提取入门指南 在自然语言处理(NLP)中,短语提取是一个非常重要的任务。目的在于从文本中提取有意义的短语,这可以用在信息检索、情感分析和许多其他应用中。本文将引导你完成NLP英文短语提取的整个流程,包括所需工具、代码示例以及可视化图表。 ## 流程概述 在我们开始编写代码之前,让我们先了解整个短语提取的流程。下面是一个简单的流程表: | 步骤 | 描述
原创 16天前
11阅读
# NLP 提取核心短语:新手入门指南 作为一名刚入行的开发者,你可能对自然语言处理(NLP)感到既兴奋又困惑。本文将为你提供一个简单的入门指南,教你如何使用NLP技术提取文本中的核心短语。 ## 一、流程概览 首先,让我们看看使用NLP提取核心短语的整个流程。以下是一个简单的流程表: | 步骤 | 描述 | | --- | --- | | 1 | 数据收集 | | 2 | 文本预处理 |
原创 3月前
13阅读
PairSupCon:用于句子表示的成对监督对比学习 《Pairwise Supervised Contrastive Learning of Sentence Representations》 oders的数据增强方法【自然语言处理】【向量表示】PairSupCon:用于句子表示的成对监督对比学习一、简介 学习高质量的句子嵌入是中的基础任务。目标是在表示空间中将相似句子映射在相近的位置,将不
 论文标题:LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval下载地址:https://arxiv.org/abs/2302.02908根据一张图片检索相关文本,或者根据一段文本检索相关图片,在现在的工业界中越来越常用。随着既有CLIP等多模态对比学习模
## NLP 依存语法与短语结构语法 自然语言处理(Natural Language Processing,NLP)是人工智能领域中的一个重要分支,研究如何让计算机理解和处理人类语言。在NLP中,依存语法和短语结构语法是两种常用的语法分析方法。本文将介绍这两种语法分析方法的原理和应用,并且给出相应的代码示例。 ### 依存语法(Dependency Parsing) 依存语法是一种描述单词之
原创 2023-08-11 04:14:55
270阅读
9. 信息抽取信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库,所以可以利用海量的非结构化文本。本章按照颗粒度从小到大的顺序,介绍抽取新词、关键词、关键短语和关键句的无监督学习方法。9.1 新词提取概述新词是一个相对的概念,每个人的标准都不
# NLP 意图识别的开发与实现 自然语言处理(Natural Language Processing,NLP)作为一种重要的人工智能技术,已在各行各业广泛应用。其中,意图识别(Intent Recognition)是 NLP 中的一个关键任务,旨在从用户输入的文本中识别其意图,为后续的自动化处理提供支持。例如,用户可能希望通过对话系统订购披萨、查询天气或请求支持服务。本文将探讨如何开发一个简单
原创 2天前
12阅读
  nlp领域里,语义理解仍然是难题!  给你一篇文章或者一个句子,人们在理解这些句子时,头脑中会进行上下文的搜索和知识联想。通常情况下,人在理解语义时头脑中会搜寻与之相关的知识。知识图谱的创始人人为,构成这个世界的是实体,而不是字符串,这从根本上改变了过去搜索的体系。语义理解其实是基于知识,概念和这些概念间的关系。人们在解答问题时,往往会讲述与这个问题相关的知识,这是语义理解的过程。这种机制完全
转载 2023-09-02 22:19:13
122阅读
文章目录第一部分:文本分类一、文本预处理(解决特征空间高维性、语义相关性和特征分布稀疏)二、文本特征提取三、分类模型第二部分:情感分析一、概述二、基于情感词典的情感分类方法三、基于机器学习的情感分类方法第三部分:意图识别一、概述二、意图识别的基本方法三、意图识别的难点 第一部分:文本分类训练文本分类器过程见下图:文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或
转载 2023-08-31 18:21:49
292阅读
短语高级识别是指短语拼写检查。词形还原和短语高级识别不能同时作用于同一个查询关键词上。词形还原将不会被应用于那些被认为是专有名词或短语的查询关键词。这些查询关键词只匹配普通的搜索索引。例如:FAST Search也许包含在专有名词列表中,这个列表不包含屈折变化后的fasts和searchs。同样,搜索FAST,FAST被识别为一个专有名词。这意味着,在一个标准的FAST E
翻译 2023-04-12 02:45:19
85阅读
将基于信息熵和互信息的新词提取方法(第20天)中的字符替换为单词,即可将其转换为短语识别的方法。下面我们仍然使用神超直播间的弹幕的8个小时的时间切片作为例子,使用HanLP中的extractPhrase方法实现。from pyhanlp import *from utils import filedef extract(corpus): text = file.as_string(corpus) # 工具类:将文件读取为str phrase_info_list = HanLP.e
原创 2021-08-26 10:47:49
316阅读
将基于信息熵和互信息的新词提取方法(第20天)中的字符替换为单词,即可将其转换为短语识别的方法。下面我们仍然使用神超直播间的弹幕的8个小时的时间切片作为例子,使用HanLP中的extractPhrase方法实现。from pyhanlp import *from utils import filedef extract(corpus): text = file.as_string(corpus) # 工具类:将文件读取为str phrase_info_list = HanLP.e
原创 2022-03-28 15:23:10
131阅读
去年对于自然语言处理(NLP)来说是巨大的。就改进而言,现在可以通过使用优化的库和高性能硬件来更快地实现神经网络。但是,基于深度学习的现代NLP管道中的瓶颈之一是tokenization,尤其是通用性强且独立于框架的实现。为了提供对现代NLP管道良好配合的快速,最先进且易于使用的令牌化的访问,Hugging Face贡献者已开发并开源了Tokenizers.。顾名思义,令牌生成器是当今使用最广泛的
语音识别模型:语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的。 seq2seq的模型主要有LAS,CTC,RNN-T,Neural Transducer,MoChA。本节讲最流行的LAS,就是Listen,Atten,and Spell,典型的seq2seq+attention的自编码模型。1. Listen:编码器会把输入的一串声学特征,转换为高维隐层嵌入。它的主要目标
坐落在北京西山凤凰岭山脚下的龙泉寺,可以称得上是全国甚至全球科研实力最强的佛教寺庙。寺内高僧们搞科研、写代码,将佛学与新技术相结合,成果不断,持续被外界关注着。在汉传佛教的两千多年里,历朝历代都对《大藏经》进行翻译、增补、修订,为了使人们阅读古文典籍更加便捷,同时提高学者的工作效率,龙泉寺在整理和校勘的《大藏经》时,运用了包括深度学习、OCR、NLP在内的现代技术来改变传统《大藏经》的解读方式。例
文本匹配和语义匹配1、什么是文本匹配?文本匹配是自然语言处理中一个重要的基础问题,可以应用于大量的NLP任务中,如信息检索、问答系统、复述问题、对话系统、机器翻译等,这些NLP任务在很大程度上可以抽象为文本匹配问题。例如网页搜索可抽象为网页同用户搜索Query的一个相关性匹配问题,自动问答可抽象为候选答案与问题的满足度匹配问题,文本去重可以抽象为文本与文本的相似度匹配问题。2、文本匹配方法概述2-
一、内容概要Photo OCRProblem Decription and pipeline(问题描述和流程图)Sliding Windows(滑动窗口)Getting Lots of Data and Artificial DataCeiling Analysis(上限分析):What part of the pipline to Work on Next二、重点&难点1. Proble
与计算机视觉相比,自然语言处理 (NLP) 一直被认为是一个难以攻克的难题。本文寻找到了一种新的 NLP 处理方式,探索将 NLP 与计算机视觉处理结合,将文本绘制成图片。虽然目前的准确率还有待优化提高,但看起来很有应用前景。问题点长期以来,自然语言处理 (NLP) 一直被认为是一个难以攻克的难题,至少与计算机视觉相比是这样。NLP 模型需要更长的运行时间,通常更难实现,并且需要更多的计算资源。另
  • 1
  • 2
  • 3
  • 4
  • 5