V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
alwayshere
V2EX  ›  程序员

Redisearch 和 elasticsearch 之间纠结,我这个配置全文搜索该选哪个好?

  •  
  •   alwayshere · Nov 27, 2017 · 7881 views
    This topic created in 3074 days ago, the information mentioned may be changed or developed.

    目前服务器配置是 i5+16G+2T HDD,MySQL 共 50 万行,约 1G 大小,当初因为觉得 elastic 配置坑太多而转向基于 xapian 的 xunsearch,目前这 50 万行数据存入 xunsearch 后占了约 3G 的硬盘,试了很多搜索词,平均 query 都在 0.3~0.5s 之间徘徊,感觉有一点慢,搜索配置很简单,就一个文章 id 和文章内容 content 两个字段,目前想转向 Redisearch 或者 elasticsearch,有几点疑问

    1. redisearch 基于内存,elastic 基于硬盘,理论上来说,前者 query 速度完爆后者,有 V 友实测过速度没?
    2. 50 万行的 mysql 存到 redisearch 会不会爆了我的内存,后期可能增加至 100 万行,16G 是不是太小了,我还得经常换服务器??
    3. 数据存到 elastic 会不会比现在 xunsearch 快些?至少 query 控制在 0.1s 之内能行不
    4. 我的虽然是机械盘,为何和 xunsearch 官方 bench 差这么多???,内存还是官方 bench 的 2 倍, http://www.xunsearch.com/site/performance

    请 V 友给点建议,不胜感激

    Supplement 1  ·  Nov 27, 2017
    ES 主要是太复杂而且坑太多,就一个商业炒作出来的东西,本能的排斥
    22 replies    2018-10-30 20:43:55 +08:00
    yanzixuan
        1
    yanzixuan  
       Nov 27, 2017
    没用过 redisearch,但是如果你觉得 elasticsearch 配置坑都多的话,那么 solr 会搞到你哭。
    es 集群可以存取上百亿数据,你这点数据,一个单机版都能搞定。
    bigdogbigpig
        2
    bigdogbigpig  
    PRO
       Nov 27, 2017 via iPhone
    50 万就要用 es 了额
    oaix
        3
    oaix  
       Nov 27, 2017
    > elastic 配置坑太多
    坑太多指的是什么?
    lianyue
        4
    lianyue  
       Nov 27, 2017
    以前用过 elastic 单机 3000w 数据 0.5s 以内, 全文索引
    gejigeji
        5
    gejigeji  
       Nov 27, 2017 via iPhone
    才 50w es 随便搞搞就行
    superlead
        6
    superlead  
       Nov 27, 2017
    es 资料多点 感觉~
    NeinChn
        7
    NeinChn  
       Nov 27, 2017
    首先你要知道为什么慢
    理论上平均响应时间在 100ms 应该没啥问题
    但是希望 TP99 在 100ms 有点乐观了
    除非内存能 cache 住你的所有正排文件+内存倒排索引
    一次 HDD 寻道+数据读取就浪费了几毫秒,而 ElasticSearch 这种存储做的特别差的会需要大量读磁盘...
    owenliang
        8
    owenliang  
       Nov 27, 2017 via Android
    现在都是 es,我不明白有什么选择困难症?
    murmur
        9
    murmur  
       Nov 27, 2017
    慢的话可以考虑下你分词有没有问题 每次分词都不命中转到二元分词或者一元分词上肯定不行
    必要的停用词该去要去 要不索引太鸡儿大了
    owenliang
        10
    owenliang  
       Nov 27, 2017 via Android
    另外,我觉得大家连点操作系统常识都没有。

    不知道文件系统有缓存吗,慢说明你内存比数据量小,没法全内存,你的数据结构再牛逼也是磁盘速度。
    simapple
        11
    simapple  
       Nov 27, 2017
    升级 mysql 5.7 用 ngram parser,就这么简单
    vus520
        12
    vus520  
       Nov 27, 2017
    ES 已经够简单了,安装使用全程无脑,几百万以内的数据大材小用,根本不可能有问题。
    zhengxiaowai
        13
    zhengxiaowai  
       Nov 27, 2017
    50W 不多吧。。。。可以用 pg full text search 试试。

    话说方便的就是换成 ssd,可以提升不少
    mooncakejs
        14
    mooncakejs  
       Nov 27, 2017
    50w postgres 随便搞,1 亿数据的表,全文搜索都很快。
    codeyung
        15
    codeyung  
       Nov 27, 2017
    es
    fiht
        16
    fiht  
       Nov 27, 2017
    es
    chcx
        17
    chcx  
       Nov 27, 2017
    es 一天 20 亿条日志( sigh TNT
    toku
        18
    toku  
       Nov 27, 2017 via iPhone
    晕,只简单用过 solr 和了解过 es
    wph95
        19
    wph95  
       Nov 27, 2017
    > ES 主要是太复杂而且坑太多,就一个商业炒作出来的东西,本能的排斥

    。。。 拿还让我们能说些什么 。。。
    Stack Overflow 和 github 搜索功能都是基于 ElasticSearch
    当然你要是说这两个网站都没听过那我就更没说的了
    inflationaaron
        20
    inflationaaron  
       Nov 27, 2017 via iPhone
    @yanzixuan solrcloud 真心哭了
    tcpdump
        21
    tcpdump  
       Nov 27, 2017
    @wph95 哇靠,居然商业炒作出来的东西, 题主村里刚通网吧。
    niubee1
        22
    niubee1  
       Oct 30, 2018
    ES 的坑确实太多, 垃圾
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5086 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 81ms · UTC 05:39 · PVG 13:39 · LAX 22:39 · JFK 01:39
    ♥ Do have faith in what you're doing.