有做过nlp中文分词的么,从生语料建立一个领域词典,有哪些可以参考的资料?

2013-02-04 10:51:48 +08:00
 laoyuan
关于中文分词,绝大多数资料、模型都是已经有词典了,如何更准的切分。那么从生语料建立词典,如果写程序做,有人分享下经验么?我感觉应该需要一定的人工工作,还好我要做的是小型词典,可以接受了。
7403 次点击
所在节点    自然语言处理
2 条回复
joyjy
2013-02-04 12:11:51 +08:00
直接用中科院分词就挺好的。

自己搞的话,常见的就是TF-IDF、互信息,隐马尔可夫模型。
互信息:I=log(p(xy)/p(x)*p(y)),用于判断字串是否总是组合出现 -> 组合概率高的可能是词。从单字开始到分隔符(标点符号)依次计算,可以得出候选词概率矩阵。
TF-IDF:TF-词在整体语料中出现的频率,IDF-出现词的语料块在整体语料中的频率,可以用于从候选词中筛选。
隐马尔可夫模型:推断分词的最优路径。
nigelvon
2013-02-04 12:15:19 +08:00
以前做过用大量语料来统计的,不过效果和效率没有用词典的好。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/59715

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX