subword_51CTO博客

NLP入门 | 通俗讲解Subword Models

之前介绍的模型都是基于词向量的, 那么能不能换一个角度来表示语言。说英文的时候, 每个单词都是由音节构成的, 而人们听到了连续的音节就可以理解其中的含义, 而音节显然比词粒度更细。首先，来梳理下word-level存在的几个问题:需要系统需要极大的词汇量;如果遇到了不正式的拼写, 系统很难进行处理;做翻译问题时, 音译姓名比较难做到。为了解决这些问题, 一开始想到的是采用character级别的模

java

原创

mb5ff97f7b72697

2021-02-04 20:42:58

745阅读

NLP入门 | 通俗讲解Subword Models

x

词向量

文本库

卷积

原创

mb62b92582e5a0a

2022-10-19 17:17:45

169阅读

神经机器翻译的Subword技术

神经网络机器翻译(NMT)是目前最先进的机器翻译技术，通过神经网络的处理可以产生流畅的翻译。然而非机器翻译模型受到词汇外

深度学习

自然语言处理

机器翻译

subword

ci

原创

deephub

2024-05-18 20:47:06

4阅读

Subword-Based Tokenization策略之BPE与BBPE

摘要：BPE和BBPE是NLP中两种重要的子词分割算法。BPE通过合并高频字符对构建词表，适用于特定语言但存在OOV问题；BBPE在字节级别操作，利用UTF-8编码处理多语言文本，几乎消除OOV风险但词表较大。两者都通过迭代统计和合并高频单元来构建词表，其中BBPE能自动学习汉字等复杂字符的组成。BBPE通过字节组合层级关系（如"深度"由多个字节符号合并而成）实现更好的泛化能力，特别适合多语言处理场景。（150字）

自然语言处理

人工智能

迭代

ide

初始化

转载

jack

4天前

392阅读

NLP Subword三大算法原理：BPE、WordPiece、ULM

一只小狐狸带你解锁NLP/ML

迭代

语言模型

字符串替换

转载

夕小瑶谈人工智能

2023-07-25 20:02:14

242阅读

斯坦福CS224n追剧计划-Week7：subword models与上下文词表示原创夕小瑶夕

简介NLPStanfordCS224n追剧计划是由夕小瑶的卖萌屋发起的开源开放NLP入门项目，借助github和微信群为大家提供同期小伙伴打卡讨论、内容沉淀、作业笔记和FAQ共享、连线斯坦福等服务。关于该计划的详请见这里。1.Github项目地址https://github.com/xixiaoyao/CS224n-winter-together2.StanfordCS224n追剧群扫码添加小夕微

Java

原创

mb5fdcad0be2e90

2020-12-21 23:21:21

332阅读

leetcode1048

1 class Solution: 2 def __init__(self): 3 self.dp = {} 4 5 def backtrack(self,word,subword): 6 self.dp[word] = max(self.dp[word],self.dp[subword]+1) 7 for j in

leetcode

动态规划

编程题目

转载

mb5fe190f8e35a0

2019-05-26 23:51:00

31阅读

大语言模型中常用的tokenizer算法

我们说了三个tokenize不同粒度：word/subword/char，现在最常用的是subword字词的模式，今天就和大家分享下字词的三个经典的算法：WordPiece、BPE/BBPE和unigram。

字符编码

语言模型

初始化

原创精选

aiweker

2024-07-11 21:47:28

939阅读

bertbasechinese怎么使用

目录subword产生背景subword主流算法BPEwordpieceunigram language modelbert 的分词参考资料subword产生背景word-level模型导致严重的OOV，而character-level模型粒度又太小过大的词典会带来两个问题：稀疏问题: 某些词汇出现的频率很低，得不到充分的训练计算量问题: 词典过大，也就意味着embedding

bertbasechinese怎么使用

算法

nlp

分词

subword

转载

智能探索者之家

10月前

119阅读

NLP 算法开发Java nlp经典算法

最近在做机器翻译相关的工作，发现subword算法在NLP各大任务中无处不在。既然要用到并且用好subword，这里就重点捋一遍关于subword的算法以及几个开源的实现。1.word、subword和character在神经机器翻译中，通常有一个固定的词表，并且模型的训练和预测都非常依赖这个词表。在神经网络的训练过程中，需要对词表中每个词做向量表，每个词对应不同的向量，即embedding的过程

NLP 算法开发Java

bp算法和nlp算法

迭代

数据

字符串

转载

mob64ca141275de

2023-11-13 06:42:51

171阅读

算法工程师面试之BPE算法

NLP算法工程师面试之BPE算法。BPE算法是一种subword方法，该算法的主要步骤是：

算法

字符串

BPE算法

迭代

字符串替换

原创

说文科技

2022-01-25 14:34:10

494阅读

斯坦福NLP课程 | 第12讲 - NLP子词模型

NLP课程第12讲介绍了语法学 (linguistics) 基础知识、基于字符粒度的模型、子词模型 (Subword-models)、混合字符与词粒度的模型、fastText模型等。

深度学习

自然语言处理

nlp

子词模型

rnn

原创

ShowMeAI

2022-05-16 15:50:20

6027阅读

深入理解 LLM 分词器：BPE、WordPiece 与 Unigram

大模型中的分词是将文本转换为可处理离散单元（tokens）的关键步骤。现代模型主要采用子词（subword）分词算法，如BPE、WordPiece和Unigram。

#深度学习

#语言模型

#自然语言处理

归一化

ico

转载

网猴儿

20天前

368阅读

中文自然语言处理订单平台客户评论情感分析

文章目录一、问答系统1.Stanford Question Answering Dataset (SQuAD)2.Stanford Attentive ReaderStanford Attentive Reader++3.BiDAF二、Subword Models1.Character-Level Model2.Sub-word models（1）Byte Pair EncodingWordpi

自然语言处理

自然语言生成

搜索

问答系统

转载

mob64ca13fae001

2024-09-12 11:41:05

92阅读

text embedding Text embedding inference

论文： Enriching Word Vectors with Subword Information Bag of Tricks for Efficient Text ClassificationEmbedding理解：背景：Embedding的流行，归功于google提出的word2vec。本质：使距离相近的向量对应的物体有相近的含义，比如 Embedding(复仇者联盟)和Embedding

text embedding

自然语言处理

词向量

Word

ci

转载

编程之翼

2024-06-04 19:01:52

258阅读

NLP里面的token nlptokenizer

文章目录词级标记 (Word level tokenization)字符级标记 (Character level tokenization)子字级标记 (Subword level tokenization)WordPiece 子字级标记算法BPE（Basic Periodontal Examination）所谓 tokenization ，就是如何提取或者说是记录文本中词语，常用的toke

NLP里面的token

NLP

bert

WordPiece

BPE

转载

mob64ca13fd559d

2024-04-24 14:47:38

56阅读

pytorch安装一半可以中断吗

文章目录一些说明三、最终代码及解析3.1 构建分词器3.2 预训练bert模型3.3 分类任务微调：零、分词tokenization1.2 分词规则1.3 character-based-tokenizer1.4 Subword tokenization1.5 Byte-Pair Encoding字节对编码 (BPE)1.6 字节级 BPE（Byte-level BPE）1.7 WordPiec

pytorch安装一半可以中断吗

bert

python

自然语言处理

1024程序员节

转载

墨舞天涯

10月前

24阅读

NLP的tocken是啥 nlp中的token

目录1. 字粒度 2. 词粒度3. Subword 粒度3.1 BPE 字节对编码3.2 WordPiece (Character-Level BPE) 3.3 Byte-level BPE 我们知道很多NLP模型（Transformer, Bert）输入的其中一部

NLP的tocken是啥

自然语言处理

深度学习

机器学习

数据

转载

killads

2023-10-17 18:03:03

391阅读

离线自然语言处理自然语言处理源码

作者：LogM1. 源码来源本文对应的源码版本：Commits on Jun 27 2019, 979d8a9ac99c731d653843890c2364ade0f7d9d3FastText 论文：[1] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information[

离线自然语言处理

自然语言处理c 源代码

i++

数组

词向量

转载

Aceryt

2024-05-08 11:52:07

153阅读

NLP模型的loss

Neural machine Translation of Rare Words with Subword Units动机和创新点BPE算法BPE算法应用BPE改进算法前面的两篇facebook的文章都提到了BPE（Byte Pair Encoding，双字节编码）算法，可能大家不太了解，今天通过这篇文章介绍一下BPE的具体原理。这是2016ACL关于NLP分词操作的论文，许多论文方法（例如B

NLP模型的loss

NLP

自然语言处理

分词

OOV

转载

mob64ca1411a6fc

5月前

30阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

subword

NLP入门 | 通俗讲解Subword Models

NLP入门 | 通俗讲解Subword Models

神经机器翻译的Subword技术

Subword-Based Tokenization策略之BPE与BBPE

NLP Subword三大算法原理：BPE、WordPiece、ULM

斯坦福CS224n追剧计划-Week7：subword models与上下文词表示原创夕小瑶夕

leetcode1048

大语言模型中常用的tokenizer算法

bertbasechinese怎么使用

NLP 算法开发Java nlp经典算法

算法工程师面试之BPE算法

斯坦福NLP课程 | 第12讲 - NLP子词模型

深入理解 LLM 分词器：BPE、WordPiece 与 Unigram

中文自然语言处理订单平台客户评论情感分析

text embedding Text embedding inference

NLP里面的token nlptokenizer

pytorch安装一半可以中断吗

NLP的tocken是啥 nlp中的token

离线自然语言处理自然语言处理源码

NLP模型的loss

算法工程师面试之OOV问题如何解决？

自然语言处理中的token的定义 nlp中的token

NLP中token 是什么 nlp的token

huggingface的生成模型generate方法 huggingface使用教程

LDA分词算法分词算法总结

NLP模型的token和输入长度 nlp token

算法工程师面试之BPE算法

TermsAggregationBuilder 作用

中文分句 nlp nlp英文分词

superword-mode一览

51CTO博客

subword

NLP入门 | 通俗讲解Subword Models

NLP入门 | 通俗讲解Subword Models

神经机器翻译的Subword技术

Subword-Based Tokenization策略之BPE与BBPE

NLP Subword三大算法原理：BPE、WordPiece、ULM

斯坦福CS224n追剧计划-Week7：subword models与上下文词表示 原创 夕小瑶 夕

leetcode1048

大语言模型中常用的tokenizer算法

bertbasechinese怎么使用

NLP 算法开发Java nlp经典算法

算法工程师面试之BPE算法

斯坦福NLP课程 | 第12讲 - NLP子词模型

深入理解 LLM 分词器：BPE、WordPiece 与 Unigram

中文自然语言处理订单平台客户评论情感分析

text embedding Text embedding inference

NLP里面的token nlptokenizer

pytorch安装一半可以中断吗

NLP的tocken是啥 nlp中的token

离线自然语言处理 自然语言处理源码

NLP模型的loss

算法工程师面试之OOV问题如何解决？

自然语言处理中的token的定义 nlp中的token

NLP中token 是什么 nlp的token

huggingface的生成模型generate方法 huggingface使用教程

LDA分词算法 分词算法总结

NLP模型的token和输入长度 nlp token

算法工程师面试之BPE算法

TermsAggregationBuilder 作用

中文分句 nlp nlp英文分词

superword-mode一览

斯坦福CS224n追剧计划-Week7：subword models与上下文词表示原创夕小瑶夕

离线自然语言处理自然语言处理源码

LDA分词算法分词算法总结