subword(子词/词内片段):指比完整单词更小的语言单位,常用于计算语言学与自然语言处理(NLP)中,把词拆分为更小的片段(如词根、词缀或统计切分得到的片段),以更好处理生僻词、未登录词并减少词表规模。也可泛指“单词内部的部分”。(该词在不同语境下还可能有更具体的技术定义。)
BrE /ˈsʌb.wɜːd/
AmE /ˈsʌb.wɝːd/
We split long words into subwords.
我们把较长的单词切分成子词。
By training a tokenizer on subword units (such as BPE), the model can represent rare or unseen vocabulary while keeping the vocabulary size manageable.
通过用子词单元(例如 BPE)训练分词器,模型可以表示罕见或未见过的词汇,同时把词表规模控制在可管理的范围内。
由前缀 sub-(“在下、次一级、较小”)+ word(“单词”)组成,字面意思是“比单词更小的单位”。该用法在现代计算语言学/机器学习语境中尤为常见。