我们说了三个tokenize不同粒度:word/subword/char,现在最常用的是subword字词的模式,今天就和大家分享下字词的三个经典的算法:WordPiece、BPE/BBPE和unigram。
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号