CONLL-U 是一种常用的文本标注文件格式,用来存储依存句法分析与词汇信息(如分词、词形还原、词性、形态特征、依存关系等),最常见于 Universal Dependencies(UD) 语料与工具链中。它通常以“每行一个词/符号、以制表符分列字段”的方式表示句子结构。(也常写作 CoNLL-U。)
/ˌkɒnɛl ˈjuː/
I converted the dataset to CONLL-U for training.
我把数据集转换成 CONLL-U 格式用于训练。
The parser outputs CONLL-U files that include lemmas, POS tags, and dependency arcs for each sentence.
该解析器会输出 CONLL-U 文件,其中包含每个句子的词元、词性标注以及依存弧等信息。
CoNLL 来自 Conference on Natural Language Learning(自然语言学习会议)相关共享任务中常用的标注格式传统;后缀 -U 通常指向 Universal Dependencies 生态中采用的扩展版本(用于更通用、更统一的跨语言句法标注与交换)。