训练Tokenizer

元数据

在构建中文语言模型时，预训练流程是关键步骤之一。其中，Tokenizer的训练与优化直接影响模型的性能与适用性。本文将重点解析如何通过词表扩充、压缩率控制等方式优化Tokenizer，并探讨中文预训练的独特挑战与解决方案。

Tokenizer（分词器）的主要作用是将输入的句子切分为词或字，并将这些切分结果转化为模型可理解的token。这是预训练模型的第一步。

选择算法：使用BPE（Byte Pair Encoding）、BBPE（Balanced Byte Pair Encoding）或WordPiece算法。
数据准备：收集通用大规模数据集和业务场景相关数据。
环境需求：需要内存较大的CPU机器。
压缩率控制：保持1个token约对应1.5个汉字以平衡解码效率与模型知识能力。
词表扩充：手动添加常见汉字或业务场景相关词汇。

💡启发点：压缩率过低会导致解码效率低，而压缩率过高会影响模型知识表达能力，因此需要找到一个平衡点。

许多优秀的语言模型在中文任务上的表现不佳，因为它们的预训练主要基于英文语料。为解决这一问题，研究者通常会对英文模型进行二次预训练。

通过对比Chinese-LLaMA与原始LLaMA的Tokenizer，可以发现：

模型名	新增tokens数量	数据规模
Chinese-LLaMA	17953	未明确
BELLE	50000	120万行文本

💡启发点：通过扩充词表，可以有效降低模型训练难度，提升其适用于中文任务的能力。

原始出处：本文内容基于某技术文档关于中文语言模型预训练与Tokenizer优化的部分内容整理与总结。

⚠ 注意事项

数字切分问题需特别关注，避免影响模型回答准确性。

词表扩充时需确保覆盖足够的中英词汇，同时避免加入敏感或无意义的token。

随着中文语言模型需求的增加，未来可能出现：