这样的,观光了一下据说 CRF 是目前 NER 最好的识别标注算法。在下有几点不明,在此请教:
( 1 )按照[ZZ](
http://www.chokkan.org/software/crfsuite/tutorial.html#id488968), 作者的英文语料是用 word, pos 作为属性,最后用来预测 label 的。中文关于 NER 的语料,只找到人民日报 199801 的语料,这个语料是分词后,将 ns nr nz 等作为和 v n pp 等词性并列来处理的,就是词性已经是预测的目标而不是作为训练的参数了。
( 2 )然后我写了这个[例子](
https://github.com/taozhijiang/chinese_nlp/blob/master/crf_ner/ner.py),那么问题来了:我的测试句子分词结果必须同人民日报训练预料的分词结果一次才有用?(暂测是这样的)
( 3 )还有没有中文 NER 的语料啊?