“Tokenizer”指分词器/标记器:一种把文本切分成较小单位(如单词、子词、符号或“token”)的工具或程序,常用于自然语言处理(NLP)与编译原理等场景。(在不同领域切分规则可能不同。)
/ˈtoʊkənaɪzər/
The tokenizer splits the sentence into words.
分词器把这个句子切分成一个个单词。
In modern NLP, a tokenizer may break words into subwords so rare terms can still be processed reliably.
在现代自然语言处理里,分词器可能会把单词进一步拆成子词,以便更稳定地处理罕见词汇。
由 token(标记、符号、代币)+ -ize(使……化/进行……处理)+ -er(做某事的人或工具)构成,字面意思是“把内容做成 token 的工具/装置”。