关于基于 CRF 的 NER（命名实体识别）

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3428 天前的主题，其中的信息可能已经有所发展或是发生改变。

这样的，观光了一下据说 CRF 是目前 NER 最好的识别标注算法。在下有几点不明，在此请教：
（ 1 ）按照[ZZ]( http://www.chokkan.org/software/crfsuite/tutorial.html#id488968)，作者的英文语料是用 word, pos 作为属性，最后用来预测 label 的。中文关于 NER 的语料，只找到人民日报 199801 的语料，这个语料是分词后，将 ns nr nz 等作为和 v n pp 等词性并列来处理的，就是词性已经是预测的目标而不是作为训练的参数了。
（ 2 ）然后我写了这个[例子]( https://github.com/taozhijiang/chinese_nlp/blob/master/crf_ner/ner.py)，那么问题来了：我的测试句子分词结果必须同人民日报训练预料的分词结果一次才有用？（暂测是这样的）
（ 3 ）还有没有中文 NER 的语料啊？

目前尚无回复