自然语言处理总复习(五)—— 词义一、相关概念与预备知识(一)词义1. 定义2. 词义需要解决的三个问题3. 应用(二)预备知识1. 有监督学习和无监督学习2. 伪词3. 算法效能评估 —— 上界和下界二、有监督的方法(一)基于贝叶斯分类的词义1. 概念介绍及准备工作2. 计算公式推导3. 词义算法(Disambiguation)(二)基于互信息的词义1. 核心思想2
词义的定义,主要方法,衍化历程
原创 2021-07-11 18:21:58
220阅读
词义的定义,主要方法,衍化历程
原创 2022-01-25 16:00:29
177阅读
写在前面最近刚开始调研实体方面的相关工作,这里先开一个头吧。希望大家可
转载 2022-09-01 12:37:48
736阅读
NLP From Scratch: 生成名称与字符级RNN这是我们关于“NLP From Scratch”的三个教程中的第二个。 在<cite>第一个教程< / intermediate / char_rnn_classification_tutorial ></cite> 中,我们使用了 RNN 将名称分类为来源语言。 这次,我们将转过来并使用语言生成名称。&
# PaddleNLP 指代 指代(Coreference Resolution)是自然语言处理(NLP)中的一个重要任务,旨在识别和解决文本中的代词所指的具体内容。在实际应用中,指代对于理解和处理文本中的关联性非常重要,尤其是在机器翻译、问答系统和文本生成等任务中。 PaddleNLP 是飞桨(PaddlePaddle)生态系统中的自然语言处理工具库,提供了丰富的预训练模型和工具
原创 9月前
139阅读
1评论
【什么是对象图】    静态快照,这张照片描述了一系列对象的状态值和它们之间的链接。【对象图的组成】 对象图=对象+链 对象         对象就是真实世界中的一个物理上或概念上具有自己状态和行为的实体,并且对象可以是抽象的。 特性:标识(名字),行为(方法,属性),
一 序  本文属于贪心NLP学习笔记系列。  leaning 学习逻辑:通过历史数据学习模型,通过模型来预测未来。二 学习的两种主流方式根据AI 发展的历程,可以分为两个branch 专家系统:基于规则   基于于概率的系统(Probabilistic):给定数据D={X,y} 学习X到y的映射关系数据量大则优先使用基于概率的系统;若数据量小或没有
文章目录前言一、什么是欧式距离二、测试代码三、测试结果总结 前言  语言千千万,谁是你的最爱?我推Mojo(咒语),因为Mojo可以让Python(蟒蛇)变成龙。本章就来比一比Mojo和Python谁更快。使用的Mojo版本是0.4.0。一、什么是欧式距离  图中两个点,一个蓝色,一个红色,他们之间的欧式距离为多少?答案非常简单。   很简单的吧。   上面的只是二维空间的计算方式,如果是三维,
作者 | Nesrine Sfar编译 | VK来源 | Towards Data Science如果你点开这篇文章,这意味着你有足够的
命名实体(Named Entity Disambiguation,NED)是自然语言处理(NLP)中的一个重要任务,其目标是识别文本中的命名实体,并确定它们在现实世界中的唯一对应实体。命名实体包括人名、地名、组织名、日期、时间、货币等。 NED模型是用于解决NED问题的算法或系统。这些模型通常利用深度学习技术,特别是序列到序列(seq2seq)模型、循环神经网络(RNN)、卷积神经网络(CNN
原创 1月前
97阅读
 词义消除歧义NLP项目实验本项目主要使用https://github.com/alvations/pywsd 中的pywsd库来实现词义消除歧义目前,该库一部分已经移植到了nltk中,为了获得更好的性能WSD,而不是使用的NLTK模块pywsd库。一般来说,从pywsd的simple_lesk()比NLTK的lesk好。当我有空时,我会尽量更新NLTK模块。在本文档中主要介绍原pyws
转载 2023-09-29 10:04:48
81阅读
1. 简介实体链接(entity linking)是指将自然语言文本中出现的实体提及(entity mention)关联到对应知识图谱实体上去的任务。实体链接是很多自然语言处理任务的基础,例如知识图谱构建、信息/事件抽取、语意搜索和智能问答等。按照自然语言文本长度的不同,该任务可以进一步分为长文本实体链接和短文本实体链接两类:长文本实体链接任务的输入通常是一篇文档(例如一篇 Wikipedia文章
共指消解(coreference resolution)技术同NER、RE。作为自然语言历届基础技术被广泛的应用于:文本摘要、机器翻译、自动问答和知识图谱等领域。共指消解的提出是为了识别一段文本中指向同一实体的不同表述。在自然文本中,经常出现同一个实体的不同表述.例如,“【陈奕迅】,英文名【Eason Chan】, 1974年7月出生于香港.【他】是当今华语乐坛的当红歌手.”这句+话中,【陈奕迅】
在本期文章中,小生向您介绍了自然语言工具包(Natural Language Toolkit),它是一个将学术语言技术应用于文本数据集的 Python 库。称为“文本处理”的程序设计是其基本功能;更深入的是专门用于研究自然语言的语法以及语义分析的能力。  鄙人并非见多识广, 语言处理(linguistic processing) 是一个相对新奇的领域。如果在对意义非凡的自然语言工具包(N
如何用BERT这种预训练模型做指代
原创 2022-09-23 17:52:37
491阅读
要为高亮的关键词提供最符合上下文的解释,需要不仅仅依赖于通用的词典定义,而是根据关键词在具体文本中的使用情况来生成定义。这通常涉及到上下文感知的词义(Word Sense Disambiguation, WSD),以确保提供的解释与文章中的用法一致。实现这一目标的常见方法是使用大型语言模型(如 OpenAI 的 GPT-4),因为它们能够理解上下文并生成符合特定语境的定义。以下是实现这一功能的
原创 精选 1月前
232阅读
任务212:Entity Disambiguation (实体)介绍小米是公司还是吃的? 苹果是公司还是吃的? 根据左边的上下文找出左边的James Craig到底是右边(1)(2)(3)哪个James Craig 有一个描述库(1)苹果:一种水果(2)苹果:一家公司 (1)问题的句子,实体前找20个词,实体后找20个词,然后用tf-idf (2)解释整句话使用tf-idf (3)比较相似度
该项目用双向长短时记忆神经网络和条件随机场(Bi-LSTM-CRF)的命名实体识别本项目是针对医疗数据,进行命名实体识别。项目中有600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体。该领域的命名实体识别问题是自然语言处理中经典的序列标注问题。data:已标注的医疗数据,O非实体部分,TREATMENT治疗方式, BODY身体部位, SIGN疾病症状, CHEC
# 用Python解释汉字词义 在日常生活中,我们经常会遇到一些汉字词义不明确或者生僻的情况。而Python可以帮助我们解释这些汉字的词义,让我们更好地理解和运用汉字。在本文中,我们将介绍如何使用Python来解释汉字的词义,并给出一些代码示例。 ## 安装必要的库 在使用Python解释汉字词义之前,我们需要安装一个中文自然语言处理的库`jieba`。`jieba`是一个常用的中文分词工具
原创 7月前
40阅读
  • 1
  • 2
  • 3
  • 4
  • 5