有人用過結巴分詞嗎?或者我們聊聊 word2vec?

2014-10-15 22:16:24 +08:00
 llhh
有這樣幾個問題:
1.哪裏能獲得一些大的語料呢?
目前拿sogou實驗室的新聞語料練手,2g大小,差太遠了。
在語料的豐富度上差太多,感覺質量和數量都不夠。

2.分詞的字典,我自己有1.3億詞庫,想直接加進結巴分詞
這樣做會不會結果太亂,用結巴分詞的分詞的“全模式”分詞後放到word2vec跑會不會結果不好?

3.我想把1.3億詞庫自動分類,大家有什麼好的建議嗎?

謝謝大家!
(剛用linux,不知道爲何不能切換簡體了)
1907 次点击
所在节点    问与答
2 条回复
flyaway
2014-10-15 22:38:43 +08:00
一般的语料都是研究机构标注的,通常都是需要花钱买的
userlogin
2014-10-16 09:20:24 +08:00
v2ex也用了结巴分词:t/101091

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/139166

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX