本文选取的领域和方法很大程度上受到自身兴趣的影响,所选择的话题偏向于表征学习和迁移学习,也偏向于NLP。我尽量覆盖自己听到看到的所有论文,但是也可能会遗漏很多相关的工作,请读者不要拘束,直接在底下评论。我主要讨论以下几个重要方向:预训练模型的变大和缩小基于检索增强(retrieval-argumented)的文本生成少样本学习对比学习超越准确率的评测大型语言模型的现实担忧多语种Image Tran
转载 2024-03-14 11:25:28
94阅读
# MRC模型在NLP中的应用及实现 自然语言处理(Natural Language Processing,NLP)领域中的机器阅读理解(Machine Reading Comprehension,MRC)模型是一种重要的技术,它可以使计算机理解并回答人类提出的问题。MRC模型在问答系统、信息检索、文本摘要等领域具有广泛的应用。 ## MRC模型简介 MRC模型是一种基于机器学习和神经网络的
原创 2024-05-25 05:00:13
145阅读
在自然语言处理(NLP)中,机器阅读理解(MRC)是一个重要的研究领域。它的目标是让计算机能够理解和回答自然语言文本中的问题。在本篇博文中,我将详细介绍解决“nlp中的MRC”问题的全过程,涵盖从环境准备到排错指南的各个方面。 ### 环境准备 在开始构建MRC模型之前,我准备了必要的环境。本节将详细介绍前置依赖安装的步骤,以及版本兼容性矩阵和硬件资源评估的四象限图。 #### 前置依赖安装
原创 7月前
115阅读
1.概述序列标注包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等。解决方案是NN模型(神经网络模型)+CRF命名实体识别(Named Entity Recognition,简称NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、日期、时间、百分数、货币等。这里就需要理解句子的词性。词性是词汇的语法属性,是连接词汇到句法的桥梁,一个词的词性与它在句子中的
转载 2023-11-06 18:45:10
135阅读
前言本文以Kaggle比赛Titanic入手,介绍了特征工程的几个方法,最后训练了三个模型(RF,GBDT,SVM)并使用了一个集成方法(Voting Classifier)进行预测。完整代码及数据可以在ReMachineLearning(titanic) - Github中获取正文下面是kaggle对于这个比赛的介绍。The sinking of the RMS Titanic is one o
知识就是力量,结构化的知识更有力量
原创 2021-08-10 14:26:55
1709阅读
机器阅读理解,笔者认为他是NLP中最有意思的任务了。机器阅读一份文档之后,可以“理解”其中的内容,并可以回答关于这份文档的问题。听上去,有一种很强的“人工智能”的Feel。这篇文章介绍机...
原创 2022-10-12 17:41:34
241阅读
来自 | 知乎 作者未经许可禁止二次转载Dialogue-based Mac...
自然语言处理(NLP)是人工智能的一个重要应用领域,由于本人主要研究方向为NLP,也由于最近学习的需要,特意搜罗资料,整理了一份简要的NLP的基本任务和研究方向,希望对大家有帮助。自然语言的发展: 一般认为1950 年图灵提出著名的“图灵测试”是自然语言处理思想的开端。20 世纪 50 年代到 70 年代自然语言处理主要采用基于规则的方法。基于规则的方法不可能覆盖所有语句,且对开发者的要求极高。这
NLP,自然语言处理就是用计算机来分析和生成自然语言(文本、语音),目的是让人类可以用自然语言形式跟计算机系统进行人机交互,从而更便捷、有效地进行信息管理。NLP是人工智能领域历史较为悠久的领域,但由于语言的复杂性(语言表达多样性/歧义/模糊等等),如今的发展及收效相对缓慢。比尔·盖茨曾说过,"NLP是 AI 皇冠上的明珠。" 在光鲜绚丽的同时,却可望而不可及(...)。为了揭开NLP的神秘面纱,
classification overview本文是分类任务系列第一篇——概述,主要介绍分类的基本定义和一般流程。overview分类是nlp中常见的任务,例如垃圾邮件分类、情感分析、意图识别、行业分类等,通过一定的方法或手段,对给定样本赋予特定的标签的过程。常见的分类包括二分类:标签只有两个,通常表现为0-1或者[-1, 1],例如是否垃圾邮件、学生性别识别等多分类:标签大于两个,例如不同的舆情
0.前言:文本分类任务介绍文本分类任务是自然语言处理中最常见的任务,文本分类任务简单来说就是对给定的一个句子或一段文本使用文本分类器进行分类。文本分类任务广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来
转载 2024-02-12 21:42:04
50阅读
2020EMNLP New Task: AMBIGQA背景数据集评估准则基线模型多答案预测问题消歧弱监督联合训练REFERENCE 今年发论文初步决定从这篇新任务入手,任务有价值并且有待开发空间。先挖个坑读一读。(先写这些吧,后续研究研究协同训练和预训练模型再更新想法) 背景该任务提出了AMBIGQA,目的是解决开放域问答系统问题答案模糊的任务。简单来说就是把消歧引入到了QA领域中,且是ope
学习时间:2022.04.21自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。NLP的2大核心任务是:自然语言理解NLU和自然语言生成NLG。NLP常见的应用有:序列标注:譬如命名实体识别(Name
1.词性标注词性标注的输入是一个序列,输出的是每个词的词性,那么标注完以后再进行下游任务效果就会比直接把一段文字丢进去更好。 下图为示例图:2.分词对于英文来说,单词间有空格,所以不需要分词,但是对于中文,在进行各种任务时需要对文本进行分词。 如图所示:3.Coreference Resolution(指代消解)把同一个人或者事物标注出来,如下图例子:4.文本摘要(summarization)1.
NLP 任务的实现流程 NLP(自然语言处理)是人工智能的一个重要分支,涉及到文本的理解、分析和生成等任务。对于一个刚入行的小白来说,了解并掌握NLP任务的实现流程是非常重要的。下面我将为你详细介绍NLP任务的实现流程,并提供相应的代码以帮助你快速入门。 整个NLP任务的实现流程可以分为以下几个步骤: 1. 数据收集和预处理 2. 特征提取和表示 3. 模型选择和训练 4. 模型评估和优化
原创 2024-01-21 04:48:52
33阅读
对于大多数自然语言处理任务,必须对要处理的文本进行分解、检查,并将结果存储或与规则和数据集交叉引用。这些任务允许程序员推导出文本中术语和单词的含义或意图或仅出现频率。让我们发现用于处理文本的常用技术。结合机器学习,这些技术可帮助您有效地分析大量文本。然而,在将 ML 应用于这些任务之前,让我们先了解一下 NLP 专家遇到的问题。NLP 常见的任务有多种方法可以分析您正在处理的文本。您可以执行一些任
文章目录前言一、NLP任务的特点二、NLP的四大类任务三、介绍三种主流的特征抽取器1. RNN2.CNN3.Transformer4.三大特征抽取器比较 前言参考文献 参考张俊林老师的文章《放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较》梳理记录一下一、NLP任务的特点预测 特征抽取器:RNN、CNN、Transformer 等NLP任务的特点和图
1、词法分析(Lexical Analysis):对自然语言进行词汇层面的分析,是NLP基础性工作分词(Word Segmentation/Tokenization):对没有明显边界的文本进行切分,得到词序列新词发现(New Words Identification):找出文本中具有新形势、新意义或是新用法的词 形态分析(Morphological Analysis):分析单词的形态组成,包括词干
句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧 实体识别(Named Entity Recognition, NER)信息检索(搜索) 对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1,2,3的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在
  • 1
  • 2
  • 3
  • 4
  • 5