bigram(双连词/二元组):由两个相邻的元素组成的序列,常见于自然语言处理与统计语言模型中;在文本里通常指相邻的两个词(也可指两个相邻的字符/符号)。另有较少见的含义指“两字母组合”。
/ˈbaɪɡræm/
A bigram is a pair of adjacent words in a sentence.
bigram 是句子中一对相邻的词。
By counting bigrams in a large corpus, we can estimate how likely certain word combinations are.
通过统计大型语料库中的 bigram,我们可以估计某些词语组合出现的可能性。
由 **bi-**(“二、双”)+ -gram(源自希腊语 gramma,意为“写下的东西、字母/文字”)构成,字面意思是“由两个单位组成的书写/记录单元”。在计算语言学中用来指最基础的 n-gram(n 元语法)之一。