V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
EPr2hh6LADQWqRVH
V2EX  ›  Elasticsearch

我感觉 ES 要火了?大家都用的什么版本啊,什么分词器啊,交流一下?

  •  
  •   EPr2hh6LADQWqRVH · 2015-05-24 23:26:00 +08:00 · 8513 次点击
    这是一个创建于 3471 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我这里是官网下的es1.5.2, 再加上IK 分词器, 插件经过了略微修改才能正常使用的。。
    大家呢。。
    不会都直接用了某大神的-rtf版本吧。。。

    同时求比ik更靠谱的分词器

    26 条回复    2015-05-26 12:24:21 +08:00
    RemRain
        1
    RemRain  
       2015-05-25 00:58:48 +08:00
    直接用的最新版,搭配 sun 的 jre/jdk7 来跑,openjdk 貌似存在问题。

    另外不建议在生产环境用 rtf,一是版本老旧,二是运行一段时间后,就会变得非常慢
    ansel
        2
    ansel  
       2015-05-25 01:00:27 +08:00
    不稳定,不明原因缓慢无数据,后悔商用了。。。
    karloku
        3
    karloku  
       2015-05-25 02:28:08 +08:00 via iPad
    1.5.2+ik+从搜狗爬的四百万条词库...
    i33
        4
    i33  
       2015-05-25 08:45:43 +08:00
    跳刀大是很NB,我用的6.83
    pH
        5
    pH  
       2015-05-25 08:58:39 +08:00
    分词器?中文的?
    gkiwi
        6
    gkiwi  
       2015-05-25 09:17:53 +08:00
    中文分词器也就ik吧,其他没听说过。
    话说安全性你解决了没?端口还开这么?授权加了没?版本兼容性解决了么?
    EPr2hh6LADQWqRVH
        7
    EPr2hh6LADQWqRVH  
    OP
       2015-05-25 09:19:41 +08:00
    @gkiwi 蛤,什么版本兼容性。。。
    安全性全依赖防火墙了,感觉足够了,不需要装插件了
    EPr2hh6LADQWqRVH
        8
    EPr2hh6LADQWqRVH  
    OP
       2015-05-25 09:20:00 +08:00
    @pH 是的啊
    withrock
        9
    withrock  
       2015-05-25 10:01:40 +08:00
    zhicheng
        10
    zhicheng  
       2015-05-25 10:06:46 +08:00 via Android
    那我还感觉 iPhone 要火了呢。
    觉得 ElasticSearch 慢的,注意把 Marvel 这个插件禁掉。。。。
    pH
        11
    pH  
       2015-05-25 10:53:48 +08:00
    为啥分词器要火?
    karloku
        12
    karloku  
       2015-05-25 11:41:30 +08:00
    @pH ES是基于lucene的搜索引擎, 分词器说的基于ik, mmseg, jieba这些中文分词工具做的ES插件
    hxtheone
        13
    hxtheone  
       2015-05-25 11:44:05 +08:00
    @i33 一刀牛表示不服→_→
    874808862
        14
    874808862  
       2015-05-25 12:53:24 +08:00 via iPhone
    ES是什么?分词器又是什么?求解,别打我
    sengxian
        15
    sengxian  
       2015-05-25 13:17:21 +08:00
    http://www.oschina.net/p/freeictclas 中科院中文分词,牛的很
    jyootai
        16
    jyootai  
       2015-05-25 13:35:17 +08:00
    ES是什么?ECMAScript ?
    EPr2hh6LADQWqRVH
        17
    EPr2hh6LADQWqRVH  
    OP
       2015-05-25 13:37:27 +08:00
    @sengxian hmmm,确实,光从代码量的角度看ik和ictcals就完全不在一个量级上。。
    zts1993
        18
    zts1993  
       2015-05-25 14:22:26 +08:00   ❤️ 1
    试试ansj?不知道有没有支持es
    EPr2hh6LADQWqRVH
        19
    EPr2hh6LADQWqRVH  
    OP
       2015-05-25 14:41:23 +08:00
    @zts1993 目测很靠谱
    garyLin
        20
    garyLin  
       2015-05-25 14:44:17 +08:00
    =。= 以为是ECMAScript
    pH
        21
    pH  
       2015-05-25 14:59:36 +08:00
    @karloku 另外借问下,有木有好的英文分词,推荐一个吧?
    hactrox
        22
    hactrox  
       2015-05-25 15:16:27 +08:00
    @jyootai ES -> ElasticSearch
    13k
        23
    13k  
       2015-05-25 15:23:39 +08:00
    @pH 英文不都是空格分的么
    pH
        24
    pH  
       2015-05-25 15:46:45 +08:00
    @13k 应该说是统计词频的。
    13k
        25
    13k  
       2015-05-25 17:24:35 +08:00
    @pH 这个不是应该看你什么环境么?
    Excel的透视表
    SQL的count group by
    Python和R的就更多选择了
    elyamen
        26
    elyamen  
       2015-05-26 12:24:21 +08:00
    ES 分词开源,能直接用到外国的程序上,支持中文搜索吗?比如esotakl?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2732 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:21 · PVG 19:21 · LAX 03:21 · JFK 06:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.