求推荐好的文学资料,用来搞词库,要求可以下载纯文本的

2012-09-01 23:03:19 +08:00
 ratazzi
昨天转了搜狗的部分细胞词库,发现输入依然不是很流畅,主要不是特别常用的,今天想到找些好点的文字资料然后利用中文分词取词计算词频,最后加上拼音就成了比较好的词库了,现在主要没有好的资料。

目前分词库用的 pymmseg,如果又更好地话也推荐个吧,限 python 用的。
3087 次点击
所在节点    问与答
9 条回复
Brutal
2012-09-01 23:52:23 +08:00
ratazzi
2012-09-02 09:04:46 +08:00
@Brutal 这个好,多谢了
hbc
2012-09-02 09:20:09 +08:00
能不能去 weibo 这样的地方去爬一些下来然后做词库?
ratazzi
2012-09-02 09:51:54 +08:00
@hbc 爬的话太慢,没有足够的带宽,机器性能也不行
hbc
2012-09-02 09:58:19 +08:00
@ratazzi 可以扔在 SAE 之类的地方,但是怎么拿回来是个问题(定期取回就好了吧?
ratazzi
2012-09-02 11:27:43 +08:00
@hbc 目前不考虑抓取
hbc
2012-09-02 11:35:28 +08:00
@ratazzi ok :)
eric_q
2012-09-02 13:24:15 +08:00
词库大了也卡吧
ratazzi
2012-09-02 13:41:36 +08:00
@eric_q 打算处理大量文本后取前面频率高的部分

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/46686

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX