请教一个结巴分词的问题。。

我看到v2ex上的是用结巴分词提取的标签。。我也想给我的网站用。我的时PHP做的。
首先我clone了结巴分词。使用了他提取标签的demo程序，在命令行下运行。配置词库等。都是默认的，就是 extract_tags.py 这个demo。

一句话，20字左右，提取两个关键词。我发现。在命令行下直接运行这个demo程序，第一次运行 4秒+ 第二次运行因为词库缓存 1.6s左右。。。时间是结巴自己统计的。

loading model from cache /tmp/jieba.cache
loading model cost 1.6911380291 seconds.
Trie has been built succesfully.
[u'\u9910\u5385', u'\u597d\u5403']

我想请问。。这个时间好像挺慢的把。。v2 也是这么慢调用的吗？？
当然我的是阿里云，配置是 1核 1G 内存

关于PHP调用结巴分词。。我现在在做写python http服务，监听端口，跟php来交互返回给我关键词的结果。大家还有什么别的更好的方式么？

关于结巴分词。。还需要优化之类的么？暂时我只需要提取关键词功能，是不是直接用demo改写就好了？@livid

问题稍多有点乱，，感谢认真看完和所有回答的同学

kier

2014-05-28 17:16:16 +08:00

@a591826944, 刚仔细看了你的帖子，这个使用是没问题的，你是直接运行那个demo程序，它会完成load词库到内存中，然后再分词等等，当然慢了，但是你做http服务，load词库到内存中只会在启动的时候做一次，后面不会再做了，所以速度不会有影响的

a591826944

2014-05-28 17:21:41 +08:00

@Livid 是的我也想这么做。。所以我会启动一个python的http服务。。但是目前在命令行下运行demo的时间来看。。有点长啊。。这样即使上了服务。。也不会快的呀

a591826944

2014-05-28 20:27:03 +08:00

@ultimate010 我也看了C++版本。而且我发微博咨询了作者。。c++版本确实直接就可以提供分词服务。。但是我没有看到提供提取关键词服务的说明。。所以我问了他。。还没回复

dreampuf

2014-05-28 22:45:11 +08:00

@ultimate010 除了哈工大，stanford，中科院
还推荐一个海量分词 http://home.hylanda.com/show_5_19.html
除了结巴分词之外，更推荐楼上的 snownlp 。作者是个苦苦修行技术的单身。

@a591826944 词典文件一般序列化为特定格式或者经过压缩，反序列化到内存中时大小一般会翻几番（视倒插表结构）。HTTP服务一般会启动多个实例，以类库的形式调用会产生不必要的内存开销。最好的方法是独立为一个外部服务，独立处理。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/114729

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.