unigram(名词):在文本分析与自然语言处理中,指由单个词/符号构成的基本单位(即 n-gram 中 n = 1)。常用于分词、词频统计、语言模型等任务。(也可指“按单词为单位的统计特征”。)
/ˈjuːnɪɡræm/
Unigrams are the simplest features in text classification.
一元词(unigram)是文本分类中最简单的特征。
Compared with bigrams, unigrams ignore word order and capture only individual token frequency.
与二元词(bigram)相比,一元词(unigram)忽略词序,只捕捉单个词元的出现频率。
由 **uni-**(“一、单一”,源自拉丁语 unus)+ -gram(“书写的东西/记录”,源自希腊语 gramma)构成,字面意思是“单个单位的记录”。在计算语言学里借用 n-gram 这一术语体系,用来表示长度为 1 的序列。
unigram 更常见于计算语言学与机器学习教材/论文中,而非传统文学作品;在文学语境中通常不会直接出现该术语。较常见的学术性来源包括: