Enqueued related words: Wordpiece, Sentencepiece, BPE

Subword

释义 Definition

subword（子词/词内片段）：指比完整单词更小的语言单位，常用于计算语言学与自然语言处理（NLP）中，把词拆分为更小的片段（如词根、词缀或统计切分得到的片段），以更好处理生僻词、未登录词并减少词表规模。也可泛指“单词内部的部分”。（该词在不同语境下还可能有更具体的技术定义。）

发音 Pronunciation

BrE /ˈsʌb.wɜːd/
AmE /ˈsʌb.wɝːd/

例句 Examples

We split long words into subwords.
我们把较长的单词切分成子词。

By training a tokenizer on subword units (such as BPE), the model can represent rare or unseen vocabulary while keeping the vocabulary size manageable.
通过用子词单元（例如 BPE）训练分词器，模型可以表示罕见或未见过的词汇，同时把词表规模控制在可管理的范围内。

词源 Etymology

由前缀 sub-（“在下、次一级、较小”）+ word（“单词”）组成，字面意思是“比单词更小的单位”。该用法在现代计算语言学/机器学习语境中尤为常见。

文学/著作中的用例 Literary Works