在这个分词器系列分享中,我们从最简单的 word level,character level 开始,讲述了按词和字符分词的优缺点
接着我们介绍了 sub-word level 分词器,包括 BPE,WordPiece,Unigram 等
最后我们介绍了两个变种,一个是 SentencePiece 工具,它将多语言视为 Unicode 字符序列,不依赖于特定语言的逻辑,SentencePiece 可以基于 BPE 或者 Unigram 算法(也可是 BBPE 算法)
另一个是 BBPE 算法,它是一种基于字节级别的 BPE 分词器,即最小单元是字节