请教一个结巴分词的问题。。

2014-05-28 17:00:48 +08:00
 a591826944
我看到v2ex上的是用结巴分词提取的标签。。我也想给我的网站用。我的时PHP做的。
首先我clone了结巴分词。使用了他 提取标签 的demo程序,在命令行下运行。配置词库等。都是默认的,就是 extract_tags.py 这个demo。

一句话,20字左右,提取两个关键词。我发现。在命令行下直接运行这个demo程序,第一次运行 4秒+ 第二次运行 因为词库缓存 1.6s左右。。。时间是结巴自己统计的。

loading model from cache /tmp/jieba.cache
loading model cost 1.6911380291 seconds.
Trie has been built succesfully.
[u'\u9910\u5385', u'\u597d\u5403']

我想请问。。这个时间 好像 挺慢的把。。v2 也是 这么慢 调用的吗??
当然 我的是阿里云,配置是 1核 1G 内存

关于PHP调用结巴分词。。我现在在做 写python http服务,监听端口,跟php来交互返回给我关键词的结果。大家还有什么别的更好的方式么?

关于结巴分词。。还需要优化之类的么?暂时我只需要 提取关键词功能,是不是直接用demo改写就好了?@livid

问题稍多 有点乱,,感谢认真看完和所有回答的同学
8487 次点击
所在节点    Python
27 条回复
Livid
2014-05-28 17:04:14 +08:00
我们曾经确实在用结巴分词,不过目前已经换到另外一个分词服务了。

改天会向大家介绍,目前看起来效果还不错。
kier
2014-05-28 17:07:53 +08:00
不会呀,我印象中就程序load的时候比较慢,后面就很快呀
a591826944
2014-05-28 17:10:10 +08:00
@kier 是因为我配置低的缘故么? 但是 看上面的信息。。确实用的时 cache的词库
cache /tmp/jieba.cache
a591826944
2014-05-28 17:11:34 +08:00
@Livid 我是自己做着玩的东西。。所以都行吧。。我想先把这个搞起来看看,,等不到改天了 -_-|||..了解这个 比较慢的情况么?
a591826944
2014-05-28 17:12:13 +08:00
关于php 和 jieba 的 python http服务交互。。大家还有什么其他的建议吗
Livid
2014-05-28 17:13:54 +08:00
@a591826944 V2EX 的办法是单独启动了一个 web service 来提供标签提取。
kier
2014-05-28 17:16:16 +08:00
@a591826944, 刚仔细看了你的帖子,这个使用是没问题的,你是直接运行那个demo程序,它会完成load词库到内存中,然后再分词等等,当然慢了,但是你做http服务,load词库到内存中只会在启动的时候做一次,后面不会再做了,所以速度不会有影响的
a591826944
2014-05-28 17:21:41 +08:00
@Livid 是的我也想这么做。。所以我会启动一个python的http服务。。但是目前在命令行下运行demo的时间来看。。有点长啊。。这样即使上了服务。。也不会快的呀
a591826944
2014-05-28 17:22:57 +08:00
@kier 有道理。。我先做做看。。感谢
ultimate010
2014-05-28 19:19:29 +08:00
干嘛不用c++版本?
decken
2014-05-28 19:42:39 +08:00
@Livid 发官网链接或者说出项目名字不就可以了吗?最讨厌吊人胃口了
Livid
2014-05-28 19:46:48 +08:00
@decken 我也不想这样。

但是刚刚和他们邮件沟通的时候,他们可能还要再过一段时间才开始推广。我需要尊重别人公司的日程。
XDA
2014-05-28 20:19:51 +08:00
项目里用的IK
a591826944
2014-05-28 20:27:03 +08:00
@ultimate010 我也看了C++版本。而且我发微博咨询了作者。。c++版本确实直接就可以提供分词服务。。但是 我没有看到提供提取关键词服务的说明。。所以我问了他。。还没回复
aszxqw
2014-05-28 20:34:25 +08:00
@a591826944 不好意思下午6点才看到你的私信。不过已经回复你了,你不能收到吗?
a591826944
2014-05-28 20:39:12 +08:00
@aszxqw 哎呦我去。。碰上了。。。恢复了。。刚到家,一直在路上。。。
dreampuf
2014-05-28 20:55:59 +08:00
ultimate010
2014-05-28 21:10:46 +08:00
@dreampuf 哈工大的自然语言处理很牛逼。
halfcrazy
2014-05-28 21:20:04 +08:00
dreampuf
2014-05-28 22:45:11 +08:00
@ultimate010 除了哈工大,stanford,中科院
还推荐一个海量分词 http://home.hylanda.com/show_5_19.html
除了结巴分词之外,更推荐楼上的 snownlp 。作者是个苦苦修行技术的单身。

@a591826944 词典文件一般序列化为特定格式或者经过压缩,反序列化到内存中时大小一般会翻几番(视倒插表结构)。HTTP服务一般会启动多个实例,以类库的形式调用会产生不必要的内存开销。最好的方法是独立为一个外部服务,独立处理。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/114729

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX