OCR技术有着丰富的应用场景,包括已经在日常生活中广泛应用的面向垂类的结构化文本识别,如车牌识别、银行卡信息识别、身份证信息识别、火车票信息识别等等,此外,通用OCR技术也有广泛的应用,如在视频场景中,经常使用OCR技术进行字幕自动翻译、内容安全监控等等,或者与视觉特征相结合,完成视频理解、视频搜索等任务。OCR文字检测和识别目前的主流方法大多是采用深度学习技术,这从ICDAR2015自然场景排名
转载
2024-08-07 16:40:24
105阅读
作者|Renu Khandelwal 编译|VK 来源|Towards Data Science 在这篇文章中,我们将讨论以下有关Transformer的问题 为什么我们需要Transformer,Sequence2Sequence模型的挑战是什么? 详细介绍了Transformer及其架构 深入研
转载
2020-07-24 20:59:00
211阅读
2评论
# NLP 简介及上下游任务教学
作为一名刚入行的小白,了解自然语言处理(NLP)及其上下游任务是非常重要的。NLP的上下游任务可以被认为是数据流动的过程,从原始数据到最终模型输出的每个阶段都扮演着重要角色。在本文中,我们将介绍NLP的工作流程及其相关任务,同时分享一些代码示例来帮助你更好地理解这一过程。
## 流程概述
在NLP项目中,通常会经历以下几个步骤:
| 步骤 |
炼丹笔记干货作者:LilianTransformer Family01准备02Attention 以及 Self-Attention1.Attention是神经网络中的一种机制:模型可...
转载
2022-12-28 13:48:51
179阅读
作者:哈工大SCIR 聂润泽1.摘要现今神经机器翻译系统已取得很好的
转载
2022-11-14 15:22:40
327阅读
文本自然语言处理简介什么是NLP(Natural Language Processing)?NLP是计算机科学和人工智能的一个子领域,涉及计算机和人类(自然)语言之间的相互作用。它用于将机器学习算法应用于文本和语音。例如,我们可以使用NLP来创建语音识别,文档摘要,机器翻译,垃圾邮件检测,命名实体识别,问答,自动填写地址,预测类型等。如今,我们大多数人都拥有具有语音识别功能的智能手机。这些智能手机
转载
2023-11-11 20:36:21
115阅读
第一章:NLP简介NLP是什么?•NLP(NaturalLanguageProcessing)是自然语言处理的简称,是研究人与计算机交互的语言问题的一门学科。机器理解并解释人类写作与说话方式的能力。近年来,深度学习技术在自然语言处理方面的研究和应用也取得了显著的成果。NLP能做什么?•NLP技术已经无处不在如:提问和回答、知识工程、语言生成、语音识别,语音合成,自动分词,句法分析,语法纠错,关键词
转载
2019-07-05 09:37:01
725阅读
在这一章中,我们将介绍支撑Transformers普遍存在的核心概念,参观一些它们擅长的
原创
2023-05-17 10:38:13
145阅读
除了GPT-3之外,还有许多其他知名的NLP预训练模型,如BERT、RoBERTa、XLNet等,它们各自具有独特的特点和优势,在不同
原创
2024-06-13 11:03:04
60阅读
1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量信息来进行检索,但是...
转载
2022-09-09 00:37:25
373阅读
1 简介PyText是基于NLP深度学习技术、通过Pytorch构建的建模框架。PyText解决了既要实现快速实验又要部署大规模服务模型的经常相互冲突。它主要通过以下两点来实现上面的需求:通过为模型组件提供简单且可扩展的接口和抽象,使用PyTorch通过优化的Caffe2执行引擎导出模型,进行预测推理。并且,Facebook已经采...
原创
2023-05-18 11:31:05
159阅读
动机自然语言处理的课上老师介绍了关于信息抽取的相关内容,结合老师课件提到的相关文献,写一篇整体的总结将本类文献进行汇总,以便后续根据研究需要引用和深入阅读文献。1. 信息抽取概述1.1 信息抽取定义一般意义上,信息抽取的定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术[1]。1.2 信息抽取的任务实体识别与抽取实体消岐关系抽取事件抽取2. 实体识
转载
2023-12-15 10:47:45
126阅读
1、简介
官网地址:
https://rasbt.github.io/mlxtend/
Mlxtend (machine learning extensions) is a Python library of useful tools for the day-to-day data science tasks.
2、Apriori算法
2.1 基本概念
关联规则的一般形式
关联规则的支持
原创
精选
2023-12-19 06:45:10
1308阅读
点赞
NLP:Transformer的简介(优缺点)、架构详解之详细攻略目录Transformer的简介(优缺点)、架构详解之详细攻略1、Transformer的简介(1)、Tra
原创
2022-04-15 15:56:11
2312阅读
一、NLP是什么自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语
转载
2023-05-24 14:53:53
213阅读
前言:NLP工具有人推荐使用spacy,有人推荐使用tensorflow。tensorflow:中文译作:张量(超过3维的叫张量)详细资料参考:http://www.tensorfly.cn/Jiagu:甲骨,语言处理工具,源码参考:https://github.com/ownthink/Jiagujiagu的中文分词是基于 深度学习的方法的。看来甲骨的分词还是比较先进的。分词一般有3种
转载
2024-03-14 11:24:11
111阅读
https://github.com/xianhu/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇
转载
2024-03-14 11:29:15
57阅读
一、词袋模型:分词、去停用词、消除数字、英文,得到若干词语的集合。二、词典:词语和其索引ID的一一对应关系。假设共有N个词语。三、one-hot编码: 在词典基础上,分词之后的文章的词频向量。可以看成是M*N的单词-文档矩阵A。A(i,j)=第i篇文章中词典索引为j的词语出现的次数,即词频TF。四、TF-IDF模型:在one-hot基础上,A(i,j)的值由词频变成了词频*逆文档频率。缺点:不能表
转载
2023-08-03 22:26:53
125阅读
搜索引擎的基本的术语1.tf/df/idftf是词频,就是某个词的出现的次数,表示的是一个词的局部信息。df是文档频率,就是指某个词的文档频率,这个词在多少个文档中出现。idf是逆文档频率,它是词重要性的一个很好的衡量。计算如下:在大量语料库中统计的,所以一般表示一个词的全局信息。2.pagerankpagerank用来衡量网页重要性的一个指标。核心思想是投票原则。如果指向某个网页的链接非常多且质
转载
2023-10-07 14:17:22
177阅读
1.正则表达式正则表达式在处理文本方面发挥着重要的作用 1.re.match() 从字符串开头匹配,匹配成功返回匹配结果,加上.group()可查看匹配到的具体的值,匹配不成功则返回Noneimport re
print(re.match(r'a','abc123').group()) #a
print(re.match(r'A','abc123',re.I).group())#a,加上re.I可
转载
2023-09-27 16:55:02
148阅读