V2EX  ›  英汉词典
Enqueued related words: Wordpiece, Sentencepiece, BPE

Subword

释义 Definition

subword(子词/词内片段):指比完整单词更小的语言单位,常用于计算语言学与自然语言处理(NLP)中,把词拆分为更小的片段(如词根、词缀或统计切分得到的片段),以更好处理生僻词、未登录词并减少词表规模。也可泛指“单词内部的部分”。(该词在不同语境下还可能有更具体的技术定义。)

发音 Pronunciation

BrE /ˈsʌb.wɜːd/
AmE /ˈsʌb.wɝːd/

例句 Examples

We split long words into subwords.
我们把较长的单词切分成子词。

By training a tokenizer on subword units (such as BPE), the model can represent rare or unseen vocabulary while keeping the vocabulary size manageable.
通过用子词单元(例如 BPE)训练分词器,模型可以表示罕见或未见过的词汇,同时把词表规模控制在可管理的范围内。

词源 Etymology

由前缀 sub-(“在下、次一级、较小”)+ word(“单词”)组成,字面意思是“比单词更小的单位”。该用法在现代计算语言学/机器学习语境中尤为常见。

相关词 Related Words

文学/著作中的用例 Literary Works

  • Speech and Language Processing(Daniel Jurafsky & James H. Martin):在分词、语言建模与词表设计等章节中讨论子词/子词单元相关概念。
  • “Neural Machine Translation of Rare Words with Subword Units”(Rico Sennrich, Barry Haddow, Alexandra Birch, 2016):经典论文,推广了以子词单元处理低频词与未登录词的方法。
  • “Attention Is All You Need”(Ashish Vaswani 等,2017):在机器翻译实验设置中涉及基于子词的切分与词表构建(常见实现使用 BPE 等方法)。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   831 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 19:04 · PVG 03:04 · LAX 11:04 · JFK 14:04
♥ Do have faith in what you're doing.