自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理(NLP)领域而言,2019年是令人印象深刻的一年。在这篇博客文章中,我想重点介绍一些我在2019年遇到的与机器学习和NLP相关的最重要的故事。我将主要关注NLP,但我还将重点介绍一些与AI相关的有趣故事。标题没有特别的顺序。故事可能包括论文,工程工作,年度报告,教育资源的发布等。论文刊物ML /
NLP 基本知识NLP问题主要是对字词、短语、句子、篇章的处理,这一切问题主要包含两个层次:结构、语义。解决这些问题离不开两个基本概念:语言模型、序列标注。 一、语言模型 语言模型是指用数学的方法描述语言规律,统计语言模型是用句子A出现的概率p(a)来刻画句子的合理性,常用的有 n-gram模型二、词
转载
2023-07-29 22:47:15
57阅读
语言模型(属于generative model)语言定义为字母表的某一子集 统计学语言模型在概率的角度看语言production,从词汇表分配随机的token序列 P(<w1,w2,…wn>)generative model 不考虑condition,语言模型就是, 回答问题2,3(联合分布等),可以用于发现outlierdescrimitive 例如逻辑回归 classificati
BERTTransformer的原理Transformer是一种完全基于Attention机制来加速深度学习训练过程的算法模型。Transformer最大的优势在于其在并行化处理上做出的贡献。 Transformer抛弃了以往深度学习任务里面使用到的 CNN 和 RNN ,目前大热的Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识
转载
2023-10-31 10:48:06
33阅读
1.什么是NLP 2.NLP领域的挑战(1)同一个意思有多种表达方式(2)一词多义(Ambiguity)解决一词多义的问题方法:从数据中学习(结合上下文Context) 3.机器翻译系统的案例 上图的意思:根据表中的12对翻译结果,翻译所给出的一句话。做法:给定语料库,在语料库中做统计,进行匹配(基于统计学)。缺点:<1>慢 <2>
转载
2023-07-25 23:44:30
145阅读
课程秉承了“实战”风,老师简单理了一下NLP模型发展脉络,每个时期代表模型的优缺点,就一猛子扎进了BERT的关键技术——Transformer和Attention工作机制,于是编码解码、Query、Key、Values、Embedding、Softmax、矩阵运算带着满满的优越感向我碾压过来。算了,既然这是实战课,理论的问题就不要深究了吧,只要知道BERT是两步训练,知道如何使用ModelArts
在过去的几年里,深度学习(DL)架构和算法在诸如图像识别和语音处理等领域取得了世人瞩目的进步。然而在最开始的时候,深度学习在自然语言处理(Natural Language Processing, NLP)领域的效果一般,但是现在已经被证实深度学习在自然语言处理领域依然能够发挥巨大的作用。并且在一些常见的自然语言处理任务中,基于深度学习的方法已经取得了最佳的结果。神经网络模型在诸如命名实体识别(Na
转载
2023-08-10 14:14:46
91阅读
两个py文件,一个是利用文本训练并保存,另外一个是拼音转汉字,基于隐马尔可夫模型HMM,拼音输入法可以按注音符号与汉语拼音两种汉字拼音方案分成两大类。汉语拼音输入法的编码是依据汉语拼音方案(汉字的读音)进行输入的一类中文输入法。早期只有全拼这种方式,即完全依照汉字的整个音节来输入。随着技术的发展,拼音输入法不仅可以简拼还出现了一种只需两键就能输入整个音节的双拼方案。具体代码和文件在我上传的资源中有
# NLP领域创新应用
自然语言处理(NLP)作为人工智能的一个重要分支,近年来在多个领域中展现出了惊人的创新应用。这些应用不仅改变了我们与机器的互动方式,还改善了信息获取和处理的效率。本文将介绍几个NLP的创新应用,并通过代码示例进一步说明。
## 1. 聊天机器人
聊天机器人是NLP领域应用最广泛的例子之一。它们可以模拟人与人之间的对话。下面的示例代码使用Python中的`transfo
大家好,卷王们and懂王们好,我是对白。本次我挑选了ICLR2021中NLP领域下的六篇文章进行解读,包含了文本生成、自然语言理解、预训练语言模型训练和去偏、以及文本匹配和文本检索。从这些论文的思想中借鉴了一些idea用于公司自身的业务中,最终起到了一个不错的效果。1、Contrastive Learning with Adversarial Perturbations for Condition
转载
2023-10-01 12:56:42
66阅读
PaddleNLP是基于飞桨(PaddlePaddle)开发的工业级中文NLP开源工具与预训练模型集,将自然语言处理领域的多种模型用一套共享骨架代码实现,可大大减少开发者在开发过程中的重复工作。PaddleNLP提供依托于百度百亿级大数据的预训练模型,适应全面丰富的 NLP任务,方便开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果。下面小编就带你一一了解PaddleNLP支持的十大N
本节总结一下NLP中常见的任务,从一个全局观来看看NLP: NLP任务总结一:词法分析分词 (Word Segmentation/Tokenization, ws): 在对文本进行处理的时候,会对文本进行一个分词的处理,下面是一个常用的词库。库开源or商业支持语言分词词性标注命名实体识别费用HanLP开源Java, C++, Python有有有无Jieba开源Java, C++, Pyt
目录 1.全连接前馈神经网络(MLP)的应用2.卷积神经网络(CNNs)的应用3.循环和递归神经网络(RNNs)的应用1.全连接前馈神经网络(MLP)的应用大部分情况下,全连接前馈神经网络(MLP)能被用来替代线性学习器。这包括二分类或多分类问题,以及更复杂的结构化预测问题。网络的非线性以及易于整合预训练词嵌入的能力经常带来更高的分类精度。一系列工作通过简单地将句法分析器中的线性模型替换
转载
2023-10-31 19:12:04
27阅读
在上一部分中,我们介绍了NLP领域最基本的问题:词法分析,现阶段解决该问题最常用的方法就是将其转化为序列标注问题,根据解决序列标注问题的方法对其进行解决。 词的问题解决了,那么下一步,就是句法分析。 在这一部分中,我们介绍完全句法分析的基础——Chomsky形式文法。句法分析的任务是确定句子的句法结构或句子中词汇之间的依存关系,主要包括三种:完全句法分析、局部句法分析、依存关系分析。 其中,前两种
# NLP领域常见损失函数
## 引言
自然语言处理(Natural Language Processing,NLP)是人工智能领域中一门重要的研究方向。在NLP任务中,损失函数(Loss Function)是模型训练的关键组成部分。损失函数可以用于衡量模型的预测结果与真实标签之间的差异,从而指导模型的学习和优化过程。本文将介绍NLP领域常见的损失函数,并给出相应的代码示例。
## 1. 交叉
原创
2023-09-16 06:59:25
445阅读
1. 国际学术组织、学术会议与学术论文自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational
原创
2022-04-11 10:16:02
102阅读
1. 国际学术组织、学术会议与学术论文自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合。与其他计算机学科类似,NLP/CL有一个属于自己的最权威的国际专业学会,叫做The Association for Computational Linguistics(ACL
原创
2021-05-20 22:37:58
307阅读
NLP预训练模型随着近几年的发展,参数量越来越大,受限于算力,在实际落地上线带来了困难,针对最近最为流行的BERT预训练模型,提出了DistilBert,在保留97%的性能的前提下,模型大小下降40%,inference运算速度快了60%。 Distill的意思是蒸馏,我们可以从字面上猜测,我们要从一个很大的模型,蒸馏成比较小的模型,也可以用一种角度想,我们让大的模型当作小的模型的老师,而小模型这
一、知识蒸馏简介 知识蒸馏是模型压缩方法中的一个大类,是一种基于“教师-学生网络(teacher-student-network)思想”的训练方法, 其主要思想是拟合教师模型(teacher-model)的泛化性等(如输出概率、中间层特征、激活边界等),而不是一个简简单单的0-1类别标签。 &
近日,百度文心重磅发布三项功能,新增定制多标签文本分类、情感倾向分析模型等功能,同时数据管理能力也进一步增强,更好地满足自然语言处理(NLP)领域开发者需求,开发者可通过百度AI开发平台EasyDL进行使用。 文心(ERNIE)是依托百度深度学习平台飞桨打造的语义理解技术与平台,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与