关于是否上 ES 的问题

2019-03-07 11:13:58 +08:00
 hikarisama
业务场景
1. 每天数据量 100w 左右
2. 数据量有时间顺序的特性
3. 数据查询低频率,基本都是历史版本数据
4. 如果查询,大概率是定位到单条或者同批次(10w 左右)

请教各位大神上什么持久合适,暂时觉得 ES 不错,考虑到写入的并发量不大可控,对于查询的并发量可能大一些,暂时想到的方法是 应用层 mysql, 大数据持久层 es,靠谱吗?还请各位大神帮忙看看或者推荐推荐
5148 次点击
所在节点    Elasticsearch
20 条回复
superrz
2019-03-07 12:11:21 +08:00
典型的时序数据特性,大量写,少量查。推荐 influxdb
iyaozhen
2019-03-07 12:16:30 +08:00
其实吧,没上亿都可以用 MySQL

还得看现在和未来的规模
hikarisama
2019-03-07 12:53:59 +08:00
@superrz 谢谢推荐,influxdb 确实是一个可以考虑的 db。有个问题请教一下,我忘记罗列在上面了,我们这里可能还有部分查询是模糊查询,这个 influxdb 的表现也不错吗?
hikarisama
2019-03-07 12:55:04 +08:00
@iyaozhen 谢谢回答,眼前规模可能不大,但是后期数据肯定会上亿的,预计年数据量 5 亿~10 亿,所以对我们来讲 mysql 持久并不是一个很好的选择
ibreaker
2019-03-07 12:56:50 +08:00
@iyaozhen 三个月就上亿了
lyc1116
2019-03-07 13:26:03 +08:00
数据量大的话建议 ES 只 store primary key,然后拿着 PK 到 mysql 中取数据
hikarisama
2019-03-07 13:52:34 +08:00
@lyc1116 你好,你的意思是还是用 mysql 去 store data 吗?如果是这样,分库分表去存一些不是很常用的历史数据太占地方了有点,而且增加了维护的工作量。
hxt
2019-03-07 14:38:04 +08:00
单用 es 吧,按时间段分索引库,要查询的字段用 index 类型,其他详情字段就只用存储类型。分下片,多设几个副本,可靠。用消息队列异步写入吧,不过一天 100w 数据量峰值也就几百 tps。
misaka19000
2019-03-07 14:42:55 +08:00
我们每天 2 亿写入用的 es 没啥问题

不过你这个数据量如果对搜索没有要求的话选用 MySQL 应该也可以
zhchyu999
2019-03-07 14:45:43 +08:00
试试 NewSQL 的 TiDB
hikarisama
2019-03-07 14:49:58 +08:00
@hxt 你好,单用 es 指的是数据持久层吧,应用逻辑层主要还是关系型的就丢在 mysql,持久层按照你提议的感觉是比较可靠的,我打算测试一下 es 和 influxdb 的可行性
hikarisama
2019-03-07 14:51:47 +08:00
@misaka19000 ok~ 搜索的话主要三种场景

1. 模糊搜索做分析使用
2. 精确提取某一个指标值
3. 按照批次查询某一批数据

Mysql 性能上感觉不是很乐观,其实也在接收的范围内啦,但是它的存储真的很大,亿级别就快上 T 了
hikarisama
2019-03-07 14:54:27 +08:00
@zhchyu999 你好,这个 tidb 符合当前我描述的场景吗,还没有深入了解过这款
hxt
2019-03-07 15:05:43 +08:00
@hikarisama 嗯,指历史版本数据。业务复杂的数据是不太适合存 es 的。
wph95
2019-03-07 15:22:49 +08:00
> 1. 每天数据量 100w 左右
每条数据多大,存几天啊

2. 数据量有时间顺序的特性
> 说明可以按时序优化

3. 数据查询低频率,基本都是历史版本数据
> 历史版本数据没太懂

4. 如果查询,大概率是定位到单条或者同批次(10w 左右)
> 同批次(10w 左右) 指的是搜索到的结果有 10w+ 还是 搜索的范围里 有 10w

---
首先 这个量不大,好的机器一天 1B/1TB 量 es 都能随便写入
其次 推荐 influxdb 感觉推荐错了,influxdb 是 metric 不是 log 感觉 lz 要的是一个能查到指定一条数据的 db,而不是对某一时间段做聚合。

Tidb 和 ES 在 lz 描述的情况里感觉都能用,感觉 tidb 更适合。

当然 如果模糊搜索 ~= 要有分词 ~= 全文搜索, 那就老实用 es。
没有分词没全文搜索需求就 tidb。毕竟是个 DB 用起来简单运维起来也舒服些。
如果不用 log search,只需要时序聚合,influxdb / prometheus
lyc1116
2019-03-07 16:09:40 +08:00
@hikarisama 是的,这样可以最大化查询性能,先 query 再 facet 分析的话,还是免不了要把数据放在 ES。后面提到 influxdb,ES 基于 inverted index,influxdb 基于 LSM tree,单从两个数据结构看 ES 的查询性能会比 influxdb 好。
hikarisama
2019-03-07 16:29:39 +08:00
@wph95 你好

1. 每条数据暂定 5 列左右, 有两个 varchar(50) 剩下都 int,暂定存 5 年
2.
3. 简单解释就是每次提交 10w 批次的数据生成一个版本,一个版本查询就是 10w 条
4. 结果有 10w+

是的,需要定位到一条,某段时间的聚合有,但是场景比较少。

模糊搜索目前是会有的,不过我可以看下是否可以通过系统和业务优化解决掉模糊搜索场景。
感谢,我会参考一下 Tidb 的。
yuankui
2019-03-07 16:46:09 +08:00
es 很棒,记得按天分索引
JonyOang
2019-03-07 17:06:22 +08:00
mark 学习,准备入门了解 ES 做日志存储分析。
ducklyl
2019-03-08 09:14:38 +08:00
solr,es 都可以,mysql 不太适合查询

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/542028

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX