我看到v2ex上的是用结巴分词提取的标签。。我也想给我的网站用。我的时PHP做的。
首先我clone了结巴分词。使用了他 提取标签 的demo程序,在命令行下运行。配置词库等。都是默认的,就是
extract_tags.py 这个demo。
一句话,20字左右,提取两个关键词。我发现。在命令行下直接运行这个demo程序,第一次运行 4秒+ 第二次运行 因为词库缓存 1.6s左右。。。时间是结巴自己统计的。
loading model from cache /tmp/jieba.cache
loading model cost 1.6911380291 seconds.
Trie has been built succesfully.
[u'\u9910\u5385', u'\u597d\u5403']
我想请问。。这个时间 好像 挺慢的把。。v2 也是 这么慢 调用的吗??
当然 我的是阿里云,配置是 1核 1G 内存
关于PHP调用结巴分词。。我现在在做 写python http服务,监听端口,跟php来交互返回给我关键词的结果。大家还有什么别的更好的方式么?
关于结巴分词。。还需要优化之类的么?暂时我只需要 提取关键词功能,是不是直接用demo改写就好了?@livid
问题稍多 有点乱,,感谢认真看完和所有回答的同学
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/114729
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.