作为一个一直使用tf1.x版本的人,为了继续使用google强大的开源技术,同时也为了适配高级的3090系列显卡,还是学习了一下tf2.x版本,并重构了一些nlp相关任务的代码,将其全部用tf2.0版本替换。                    
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-06 17:49:01
                            
                                72阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            NLP-Tokenization BOW TF-IDF 学习笔记标识化 Tokenization基础概念One-hot encoding 独热编码N-grams 标识Stopwords 停顿词Normalization 标准化处理CASE Folding 大小写还原Stemming 提取词干Lemmatization 词形还原文本向量化和词袋模型词袋模型Bag of WordsTF-IDF与主题            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-23 23:22:05
                            
                                117阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 如何实现NLP中的Token化
在自然语言处理(NLP)中,Token化是一个重要的步骤,它将输入文本分割成更小的单元,这些单元称为Token。Token可以是单词、短语或符号,具体取决于具体的应用场景。本文将以简单易懂的方式引导你完成Token化的实现过程。
## 流程概述
在实现Token化的过程中,我们将遵循如下基本步骤:
| 步骤        | 说明            
                
         
            
            
            
            目录前言字粒度词粒度Subword粒度(1)  BPE(2) Unigram LM(3)WordPiece(4) Sentencepiece总结前言当前最火的预训练模型大放异彩,但是在进行输入模型前,我们都需要将纯文本数学化,比如bert的tokenization,它就是将文本分割成token,然后量化成id。今天就来说说tokenization,目前关于这方面的研究已经有很多了,本质上            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-15 00:48:53
                            
                                120阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            概念token的引入:token是在客户端频繁向服务器端请求数据,服务器端频繁的去数据库查询用户名和密码并进行对比。由此,token出现了。token的定义:token是服务器端生成的一串字符串,作为客户端请求的一个令牌,当第一次登录后,服务器生成一个token并返回给客户端,客户端带着这个token前来发送请求,无需带上用户名和密码。使用token的目的:token的目的是为了减轻服务器的压力            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-11 22:37:56
                            
                                27阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录一 NLP介绍1. 文本的`tokenization`1.1 概念和工具的介绍1.2 中英文分词的方法2. `N-gram`表示方法3. 向量化3.1 one-hot 编码3.2 word embedding3.3 word embedding API3.4 数据的形状变化二 文本情感分类1. 案例介绍2. 思路分析3. 准备数据集3.1 基础Dataset的准备3.2 文本序列化4.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-20 11:29:52
                            
                                273阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在NLP项目中,我们常常会需要对文本内容进行编码,所以会采tokenizer这个工具,他可以根据词典,把我们输入的文字转化为编码信息,例如我们本文信息是“我爱你”将转化为[2,10,3],其中”我“在字典里对应数字2,”爱“在字典里对应数字10,经过转化之后的文本,就可以作为模型的输入了。因此我们可以知道如果字典不同,那意味着同一句话编码出来的数字也就是不同的,所以对于一个训练好的NLP模型,基本            
                
         
            
            
            
            1. 介绍        在NLP中,模型如Bert、GPT)的输入通常需要先进行tokenize,其目的是将输入的文本流,切分为一个个子串,每个子串都有完整的语义,便于学习embedding表达和后续模型的使用。tokenize有三种粒度:word/subword/char。word/词:词是最自然的语言单元,对于英文来说其天然存在空格进行,切分相对容易,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-01 12:20:22
                            
                                223阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1、相比RNN模型,Transformer语义特征提取能力更强,具备长距离特征捕获能力,且可以并行训练,在机器翻译等NLP任务上效果显著。Open AI团队的GPT[7]使用Transformer替换RNN进行深层单向语言模型预训练,并通过在下游任务上Fine-tuning验证了Pretrain-Finetune范式的有效性。在此基础上,Google BERT引入了MLM(Masked Langu            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-11 10:31:29
                            
                                85阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            句法(Syntactic)分析是NLP的经典任务Syntactic tasks: Word levelWord level的句法分析任务有:形态分析、分词、序列标注形态分析:Morphological analysis,指将一个词的词根(stem)和词缀(prefix & suffix)提取出来的任务分词:Word segmentation or Tokenization,不同的语言分词方            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-20 13:45:46
                            
                                196阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.分类:文本->类别分为两种,一种是整个文本输出一个类别,另一种是文本中的每个token输出一个token。2.文字->文字使用的是seq2seq模型,中间可能使用注意力机制。有一种特殊的情况是输出的一部分可以直接copy输入的。3.多个句子输入:之前使用的是右边的图,即两个句子输入到模型中,输入的结果再经过一个模型进行整合,需要的话,在两个句子之间进行注意力机制。现在的使用的是,在            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-27 23:26:48
                            
                                32阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 教学指南:实现NLP Token化
在自然语言处理(NLP)中,"Token"是指将一段文本分解为单独单词、短语或其他有意义的元素的过程。这一过程有助于机器更好地理解和处理文本数据。在本指南中,我们将介绍实现 NLP Token 化的整个流程和如何完成每个步骤。
## 流程概述
下面的表格展示了整个实现过程的步骤:
| 步骤  | 描述            
                
         
            
            
            
            Leveraging Multi-token Entities in Document-level Named Entity Recognition1 摘要这篇论文主要提出了一个文档级别的命名实体识别(NER),为了利用整个文档的上下文信息,传统的文档级实体识别让神经网络自动学习句子之间的关系,但是这对人类而言并不直观。由于实体包括含有多个token的实体和一个token的实体,作者            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-19 11:21:46
                            
                                46阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录一、前言二、详细介绍2.1 token2.2 embedding2.3 encoding 一、前言token:模型输入基本单元。比如中文BERT中,token可以是一个字,也可以是等标识符。embedding:一个用来表示token的稠密的向量。token本身不可计算,需要将其映射到一个连续向量空间,才可以进行后续运算,这个映射的结果就是该token对应的embedding。encodi            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-17 14:05:41
                            
                                245阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # NLP中的Token:基础与实践
在自然语言处理(NLP)领域,Tokenization(分词)是一个非常重要的步骤。Token通常指的是文本中具有独立意义的最小单位,常见的Token包括单词、字符或句子等。通过Tokenization,原始文本可以被转换为更便于分析和处理的结构。在这篇文章中,我们将深入探讨Token的概念、重要性以及如何在Python中实现Tokenization。
#            
                
         
            
            
            
            文章目录1. 语音识别概述1.1 Token的表示1.2 Acoustic Feature2. 语音识别深度学习模型2.1 Listen,Attend,and Spell(LAS)2.2 CTC2.3 RNN-T2.4 Neural Transducer2.5 MoChA3. 语音识别传统模型3.1 隐马尔可夫模型3.2 Tandem3.3 DNN-HMM Hybrid4. Alignment和            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-12 11:23:46
                            
                                132阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            自从开始使用Python做深度学习的相关项目时,大部分时候或者说基本都是在研究图像处理与分析方面,但是找工作反而碰到了很多关于自然语言处理(natural language processing: NLP)的问题,所以决定花点时间学习并且写下来,希望那些跟我一样同时在学习NLP的朋友能有一些帮助,学习过程中以英文为文本标准,后期会尝试用中文,并且将相关的信息补进来博客文章中。刚开始学习哪里讲得不好            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-19 22:51:43
                            
                                69阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            NLP数据预处理前言常见的数据预处理Tokenisationlowercase and true-casingstopwords removalStemming and Lemmatisation 前言如何成为一个优秀的NLP工程师,it’s not all about training! 很多小伙伴的模型在训练集上表现良好,却在测试集上表现欠佳,有的小伙伴甚至连训练集都拟合不了。一个优秀的NL            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-27 15:09:32
                            
                                79阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Attention机制介绍之前做项目时同组大佬用到过Attention机制,Attention机制对模型能够有一定的提升作用。 人在看一张图片一篇文章时,不会对所有部分都投入同样的注意力,而是有所侧重。所谓侧重就是赋予不同的权重。Attention定义Attention是一种用于提升基于RNN(LSTM或GRU)的Encoder + Decoder模型的效果的的机制。Attention机制目前非常            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-15 21:21:39
                            
                                42阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            基于深度学习的文本分类3 文章目录基于深度学习的文本分类3part1:文本表示方法4 — 编码器:Transformer(1)位置编码(2)自注意力机制(3)残差连接(4)feed forwardpart2:两种预训练的方式(1)Masked LM (masked language model)(2)Next Sentence Predictionpart3:微调使用方法(1)模型训练(2)微调这            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-02 20:54:01
                            
                                172阅读