先上地址
https://github.com/Moonshile/ChineseWordSegmentation
原理参考的是这篇神文,通俗易懂,作者不愧是中文系出身的!
好吧,我承认是想顺便求几个Star,真是还干净着呢。。
觉得有必要贴一下使用方法,非常简单~
from wordseg import WordSegment
doc = u'十四是十四四十是四十,十四不是四十,四十不是十四'
ws = WordSegment(doc, max_word_len=2, min_aggregation=1, min_entropy=0.5)
ws.segSentence(doc)
分词结果为
十四 是 十四 四十 是 四十 , 十四 不是 四十 , 四十 不是 十四
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.