这样的,观光了一下据说 CRF 是目前 NER 最好的识别标注算法。在下有几点不明,在此请教:
( 1 )按照[ZZ](
http://www.chokkan.org/software/crfsuite/tutorial.html#id488968), 作者的英文语料是用 word, pos 作为属性,最后用来预测 label 的。中文关于 NER 的语料,只找到人民日报 199801 的语料,这个语料是分词后,将 ns nr nz 等作为和 v n pp 等词性并列来处理的,就是词性已经是预测的目标而不是作为训练的参数了。
( 2 )然后我写了这个[例子](
https://github.com/taozhijiang/chinese_nlp/blob/master/crf_ner/ner.py),那么问题来了:我的测试句子分词结果必须同人民日报训练预料的分词结果一次才有用?(暂测是这样的)( 3 )还有没有中文 NER 的语料啊?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/258306
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.