Transformers从入门到精通：token和它的三种粒度

原创

aiweker 2024-06-20 22:47:16 博主文章分类：transformer ©著作权

文章标签 未登录词神经网络复杂度 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者aiweker的原创作品，请联系作者获取转载授权，否则将追究法律责任

Transformers从入门到精通：token和它的三种粒度

大家对于token的概念可能司空见惯了，现在的大语言模型的计费方式一般都采用输入和输出的token数量来计费。那到底什么是token，它的作用是什么？

1. 什么是Token？

在自然语言处理中，Token是文本预处理的基本单元，通常是指由空格、标点符号等分隔开的文本中的一个个部分，比如单词、词组、符号等。Tokenization（分词）是将文本分割成Token的过程。

2. Token和文本处理的特殊性

我们知道神经网络模型的输入和输出都是数值

对于图像处理如CNN来说，图像本身就是0-255的数值，不需要额外的处理，就可以直接作为神经网络的输入
而对于文本来说，本身是字符并不是数值，所以必须将字符转换为数值，输入到神经网络，神经网络的输出也是数值，最后还需要将数值转换为字符

所以文本处理的特殊性：需要一个词汇表表示神经网络预测输出的范围，通常称为vocabulary

3. tokenize三种粒度：word/subword/char

tokenization 是将文本分解成更小单位（tokens）的过程。根据分解的粒度不同，tokenization 可以分为三种主要类型：单词级（word-level）、子词级（subword-level）和字符级（character-level）。每种粒度都有其独特的优点和适用场景。

3.1. 单词级 Tokenization（Word-level Tokenization）

描述

单词级 tokenization 是将文本分解成单个单词的过程。这是最直观和常见的分词方法，尤其适用于空格显著的语言如英语。

优点

直观性强：与人类的语言理解方式一致。
便于操作：容易实现和理解，适合快速原型开发。

缺点

词汇表庞大：需要存储大量不同的单词形式，增加存储和计算开销。
处理未登录词（OOV）问题：对于未出现在训练数据中的词汇，处理能力较弱。
不同语言的复杂性：对于没有明确分词符号的语言（如中文），单词级分词较为复杂。

示例

英文文本："This is a tokenizer." 分词结果：

['This', 'is', 'a', 'tokenizer', '.']

工具

Python 内置 split() 函数
NLTK 库
spaCy
Jieba（适用于中文）

3.2. 子词级 Tokenization（Subword-level Tokenization）

描述

子词级 tokenization 是将文本分解成比单词更小的单位（子词）的过程。常见的方法有 BPE、WordPiece 和 SentencePiece。子词级 tokenization 通过分解单词，可以有效处理未登录词，并且减少词汇表大小。

优点

处理未登录词：通过分解为已知子词，能够处理未登录词。
减少词汇表大小：通过合并高频子词对，生成的词汇表更加紧凑。
适应多语言任务：较好地处理多语言文本。

缺点

实现复杂度高：实现和理解相对复杂。
有时难以解释：分词结果有时不直观，不易于解释。

示例

英文文本："unaffable" 分词结果（使用 WordPiece）：

['un', 'aff', 'able']

工具

Byte Pair Encoding（BPE）
WordPiece
SentencePiece

3.3. 字符级 Tokenization（Character-level Tokenization）

描述

字符级 tokenization 是将文本分解成单个字符的过程。这种方法将每个字符视为独立的 token。

优点

处理未登录词：最小化未登录词问题，每个字符都在词汇表中。
词汇表最小：词汇表大小通常为字符集的大小，存储和计算开销最小。
灵活性高：适用于所有语言和符号。

缺点

上下文理解能力弱：单个字符的信息量较少，模型需要更长的上下文来理解文本。
训练复杂度高：由于 token 数量多，模型训练时间较长。

示例

英文文本："token" 分词结果：

['t', 'o', 'k', 'e', 'n']

工具

Python 内置 list() 函数
自定义字符分割函数

4 总结

在 NLP 中，不同粒度的 tokenization 方法各有优缺点：

单词级 tokenization：直观、操作简单，但词汇表大，处理未登录词能力差。
子词级 tokenization：平衡了词汇表大小和处理未登录词能力，但实现复杂。
字符级 tokenization：最小化未登录词问题，词汇表小，但需要处理更多的 token，总体训练复杂度高。

选择合适的 tokenization 方法取决于具体的应用场景、语言特点和计算资源。合理的 tokenization 是提升 NLP 模型性能的重要步骤之一。

上一篇：Transformers从入门到精通-Transformers介绍

下一篇：大语言模型的长文本处理能力

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯