Ngram
定义 Definition
n-gram(n元语法/ n元模型):在自然语言处理与统计语言学中,指由连续的 n 个词或字符组成的序列,用来描述文本的局部上下文与出现概率。常见如 unigram(1-gram)、bigram(2-gram)、trigram(3-gram)。在不同语境下也可写作 n-gram。
发音 Pronunciation (IPA)
/ˈɛnˌɡræm/
例句 Examples
I trained a bigram ngram model on product reviews.
我在产品评论上训练了一个二元 ngram 模型。
Because the ngram counts were sparse, we used smoothing to estimate probabilities more reliably.
由于 ngram 计数很稀疏,我们使用平滑方法来更可靠地估计概率。
词源 Etymology
n-gram 由 n(表示任意整数,代表序列长度)+ gram(源自希腊语 gramma,意为“字母/书写单位”)构成,字面意思可理解为“由 n 个单位组成的片段”。该术语在信息论与统计语言建模的发展中逐渐固定,用于表示按长度切分的连续序列特征。
相关词 Related Words
文学与著作中的用例 Literary / Notable Works
- Daniel Jurafsky & James H. Martin,《Speech and Language Processing》:在语言模型章节中系统介绍 n-gram 模型与应用。
- Christopher D. Manning & Hinrich Schütze,《Foundations of Statistical Natural Language Processing》:用 n-gram 讲解统计建模、稀疏性与平滑。
- Claude E. Shannon,“A Mathematical Theory of Communication”(1948):以序列预测与信息论思想奠定后续 n-gram 语言建模的基础语境。
- **Peter F. Brown et al.**,“Class-Based n-gram Models of Natural Language”(1992):经典论文,讨论基于类别的 n-gram 语言模型。