业务系统是否真的需要 Elasticsearch?

youngce

2022-08-22 21:56:48 +08:00

es 除了在一些搜索业务里面是最佳实践以外，很多其他场景下 es 基本都可以随便替换

fuxkcsdn

2022-08-22 22:11:46 +08:00

最后一条创建组合索引的问题
数据量足够多的情况下，索引也没用，和 es 的查询速度不在一个量级，再加上并发查询的话（同一个索引，不同查询条件），mysql 直接就 cpu 100%了

westoy

2022-08-22 22:15:09 +08:00

既然那么多场景可用可不用的，最终结合在一起可能还得上，那为什么不放弃挣扎早点上呢......

zen1

2022-08-22 22:15:56 +08:00

CRM 系统，针对每个业务对象，用户可以新建自定义字段，筛选的时候可以用其自己创建的自定义字段进行筛选，而且针对不通租户自定义字段是不同的，这样靠监控慢查询然后建索引应该是解决不了的。

laozhoubuluo

2022-08-22 22:29:54 +08:00

1. 不一定，很多时候就是要求全文搜索的，尤其是数仓场景。比如我听说近期出售的空调因为天气太热大量出现不制冷的情况，那么我就要在评价文本里面按时间段进行模糊搜索分析数据了。这种情况下用 MySQL 跑 LIKE 查询肯定是不行的。
2. 理论来说可以，但如果历史系统日志不规范的话改造成完全结构化日志有难度。而且替代系统的生态不如 ES 。
3. OLAP 我也不熟悉，不过很少听说用 ES 做的，感觉不是主要使用场景。
4. 这种在类电商场景里面太多了，而且很多情况下是不能接受一个复杂查询下去整个数据库卡住数秒甚至数十秒的。数仓多等等也没关系，用户搜索个东西卡二十秒怕不是再也不来了。

另外 ES 的确不是必选，全文搜索、日志检索也有其他的替代方案，但 ES 生态明显比替代方案好很多。

lambdaq

2022-08-22 22:43:47 +08:00

es 屌炸天。geo 系列平替 postgis 没问题。还有 ML 系列也超好用。

FYFX

2022-08-22 22:50:36 +08:00

1. 日志用关系型数据库是在日志数据量很小的情况下吧，要是你日志一天涨几个 G ，关系型数据库基本就没法用了
2. ES 用于 OLAP 其实挺菜的，但现有的 OLAP 又基本没法较好的支持在线服务，大部分在 QPS 100 左右响应时长已经无法接受了，在需要简单 OLAP 场景并需要在线服务支持的情况下 ES 还是挺有用的
3. 还有就是 ES 的空间索引其实挺好用的，GIS 相关的业务就能用的上

shuimugan

2022-08-22 23:05:19 +08:00

一开始我也想踢掉 es （ 2c4g 3 节点，580 元 /月），因为我们业务就一个 2c4g 的 PostgreSQ （一主一从，480 元 /月），一张单表同步到 es 做检索，我想 PostgreSQL 搞全文检索问题应该不大。

场景就一个单表（目前千万级，一年内会亿级）的多字段（ 27 个字段）的由用户发起的不确定条件的联合查询 + 几个字段单方向排序。

一开始我验证的是 PostgreSQL 全文检索，腾讯云升级到 4c8g 的一个月才 980 元，开 zhparser 扩展的确很快，几毫秒就搜出来了，但是任意几个字段组合检索就慢得要死（几百毫秒到 1 秒多），更别说 count 一下条数或者 odery by 了。

而在 es 里，2c4g ，检索速度非常稳定，任意字段组合检索都是十几毫秒，于是我打消了踢掉 es 的念头。

jfds

2022-08-22 23:06:35 +08:00

CRM 系统用的比较多吧，超多组合的查询条件，不可能全建索引的，影响 mysql 写性能

yangyaofei

2022-08-23 10:10:05 +08:00

@shuimugan 请问, PostgreSQL 到 ES 的同步用的是什么, 现在用的 pgsync

lovephpframework

2022-08-23 10:37:44 +08:00

实测 es 挺香的,4 亿的数据,3 节点可以在 2 秒内返回结果,每个节点都是 32g 内存,数据量小的话,就没啥必要了

victorc

2022-08-23 10:43:35 +08:00

用 es 主要是省事，no schema 架构，方便拓展，开发运维成本都比较低，但是安全漏洞风险很高

yjhatfdu2

2022-08-23 11:49:47 +08:00

@shuimugan 这种情况 pg 下可以用 gin 把所有字段做联合索引，这样可以任意组合等值查询

yjhatfdu2

2022-08-23 11:51:35 +08:00

@FYFX ES 数据量大了存储开销上升很快，单节点单 index 过亿性能很低，相比较而言 clickhouse 虽然是关系型数据库，但是超大数据量性能要高很多

dwlovelife

2022-08-23 17:45:59 +08:00

电商领域，如果没有专门做搜索的部门，ES 可以直接上

changdy

2022-08-23 22:37:08 +08:00

@shuimugan 和你遇到的场景类似 , 数据量也接近 . 也考虑过 es .但最后还是选择了 pg .主要是 pg 自带分区表 . 使用 es 的话就必须手动维护分区表 , 会麻烦一些 . 你当初有考虑过分库分表或者分区表吗?

@yjhatfdu2 是把几个字段一起放到一起创建一个 gin 联合索引吗 ? 另外如果中间有时间类型,需要范围查找怎么办呢?

changdy

2022-08-23 22:39:53 +08:00

@victorc no schema 但是还是有 mapping 需要配置的.
@lovephpframework 这个看具体的查询条件吧.如果是比较好的索引其他数据库做起来也不一定会差.
@westoy 这个说起来倒也算是一个理由 .下面的另一个同学也提到了 es 生态比较好

fuxkcsdn

2022-08-23 22:53:33 +08:00

@changdy 范围查询无解，但 es 的范围查询速度可以吊打 mysql 和 pgsql ，查询速度根本不在一个数量级

shuimugan

2022-08-23 22:54:06 +08:00

@yangyaofei 没有用工具，自己写了几十行 nodejs 的代码就搞定了。

@changdy 完全没考虑，按我的估算数据量到 10 亿，磁盘占用也不到 500G ，在云厂商那里磁盘拉一下进度条扩容就完事了。而且云厂商对 pg 的分布式不太友好，想引导你去它魔改的云原生的版本，贼贵，还不如后面自己用 citus 扩展自建

changdy

2022-08-23 23:12:10 +08:00

除了模糊查询外 ,也有很多人提到了 `多字段联合查询` 这一点 . mysql 对这个的支持的确比较差劲 ,pg 会稍微好一些.
针对这种情况的其他解法 ,估计也就是分库分表以及替换成分布式数据库了.

但是国内讨论比较多的不和云服务厂商绑定在一起的原生分布式即时查询数据库除了 es 也就 mongodb 了吧? 不知道 mongodb 的查询效率如何.

另外不知道如果是针对固定的查询条件 , 联合索引能覆盖的时候效率会不会比 es 高一些 ? 以我司为例 , 查询条件是非常不均匀的.

周末有空的话看看能不能进行一次深度测试..