一个微型的中文分词器,能够按照词语的频率(概率)来利用构建 DAG (有向无环图)来分词。
graphml
格式的图结构文件,辅助学习者理解算法过程结巴分词
的算法,具有良好的分词性能结巴分词
一样的字典文件,可以轻松添加自定义字典代码:
import MicroTokenizer
tokens = MicroTokenizer.cut("知识就是力量")
print(tokens)
输出:
['知识', '就是', '力量']
<s>
和 </s>
是图的起始和结束节点,不是实际要分词的文本log(下一个节点的概率的倒数)
深绿色
作了标记https://github.com/howl-anderson/MicroTokenizer
Xiaoquan Kong @ https://github.com/howl-anderson
只在 python 3.5+ 环境测试过,其他环境不做兼容性保障。
pip install git+https://github.com/howl-anderson/MicroTokenizer.git
见上文
from MicroTokenizer.MicroTokenizer import MicroTokenizer
micro_tokenizer = MicroTokenizer()
micro_tokenizer.build_graph("知识就是力量")
micro_tokenizer.write_graphml("output.graphml")
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.