bigram(双连词/二元语法):在语言学与自然语言处理中,指由两个相邻单位组成的序列,最常见的是相邻的两个词(也可指两个相邻字符)。常用于统计频率、搭建简化的语言模型、做预测与特征提取。
(也有较广义用法:任何“相邻两项”的二元序列。)
/ˈbaɪ.ɡræm/
We counted bigrams in the text.
我们统计了这段文本里的双连词。
A bigram model estimates the next word using the previous word, which helps in tasks like autocomplete.
二元语法模型用前一个词来估计下一个词,这在自动补全等任务中很有帮助。
由 **bi-**(“二、双”,源自拉丁语,表示“两个”)+ -gram(“写下的东西/记录”,源自希腊语 gramma,与“书写”相关)构成,字面意思是“由两个单位写成的一组”。