V2EX  ›  英汉词典
Enqueued related words: Byte-Pair Encoding

Tokenizer

释义 Definition

“Tokenizer”指分词器/标记器:一种把文本切分成较小单位(如单词、子词、符号或“token”)的工具或程序,常用于自然语言处理(NLP)与编译原理等场景。(在不同领域切分规则可能不同。)

发音 Pronunciation (IPA)

/ˈtoʊkənaɪzər/

例句 Examples

The tokenizer splits the sentence into words.
分词器把这个句子切分成一个个单词。

In modern NLP, a tokenizer may break words into subwords so rare terms can still be processed reliably.
在现代自然语言处理里,分词器可能会把单词进一步拆成子词,以便更稳定地处理罕见词汇。

词源 Etymology

token(标记、符号、代币)+ -ize(使……化/进行……处理)+ -er(做某事的人或工具)构成,字面意思是“把内容做成 token 的工具/装置”。

相关词 Related Words

文献与作品 Literary / Notable Works

  • Speech and Language Processing(Daniel Jurafsky & James H. Martin)
  • Natural Language Processing with Transformers(Lewis Tunstall, Leandro von Werra, Thomas Wolf)
  • Attention Is All You Need(Vaswani et al.)
  • Hugging Face Transformers 文档与教程(常以“tokenizer”作为核心概念出现)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   796 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 19:17 · PVG 03:17 · LAX 11:17 · JFK 14:17
♥ Do have faith in what you're doing.