我想请问一下大家 ElasticSearch 的问题

2019-03-11 23:45:16 +08:00
 luozhiyun

最近我在做一个需求,这个需求需要用到千万级别的数据进行聚合统计做报表,这个报表的结果和前台的查询条件有关

所以我突然想起了 ES,不知道有没有老哥做过千万级别的数据进行复杂的数据聚合,这个聚合 ES 能吃的消吗?性能怎么样?能实时进行计算吗?

4050 次点击
所在节点    程序员
25 条回复
notreami
2019-03-12 00:22:47 +08:00
大数据聚合 跟 ES 有啥关系?
cnnblike
2019-03-12 02:33:46 +08:00
千万级别不算啥。
我们在用的 ES 集群,部署在 AWS 上,因为是内部用的所以有折扣,
Searchable documents 数量这会在 500,000,000。过几天可能会把 data retention 放宽到 15 倍,自然数据量也会增加到 15 倍。
我觉得你与其考虑什么这个能不能吃得消。还不如考虑价格能不能吃得消。
cnnblike
2019-03-12 02:36:03 +08:00
我们组 10 台 AWS 的 EC2 在支撑这玩意儿,每台 m4.large 价格是 0.1 刀每个小时,也就是说一小时一刀,然后你自己算算吃不吃得消吧。
0312birdzhang
2019-03-12 08:22:22 +08:00
这对 es 来说简直是不值一提,毛毛雨啦
kzfile
2019-03-12 08:32:03 +08:00
多弄几个节点,啥都不是事
hotwater
2019-03-12 08:32:40 +08:00
看机器
luozhiyun
2019-03-12 09:14:09 +08:00
@cnnblike 你们十台机器支撑的数据量多大呀?
luozhiyun
2019-03-12 09:16:50 +08:00
@cnnblike 我觉得我们的数据量最多也就两千万,只不过要用这个数据进行实时计算,怕性能太差,等个几分钟才出结果,那就意义不大了
naga1003
2019-03-12 09:16:56 +08:00
千万级别基本单机就搞定了
limbo0
2019-03-12 09:44:20 +08:00
千万级别太小了…
yghack
2019-03-12 09:45:27 +08:00
千万级?单机单实例足够了。
icegreen
2019-03-12 11:18:20 +08:00
想知道楼上各位支持到了多复杂程度的聚合分析。。。
zcsz
2019-03-12 11:22:40 +08:00
千万级的应该还动用不到的 ES 吧,部门内部这样数量级的需求拿个有点老的 GreenPlum 跑,聚合起来效果非常好
luozhiyun
2019-03-12 12:44:38 +08:00
@naga1003
@limbo0
我这里不光是查询出来呀,如果只是查询的话当然没问题,我要做的这个东西是千万级别的聚合,而且是面向用户的,每个用户的聚合条件不一样都需要重新去根据条件聚合,并发量可能有 100 多的样子。也就是说有 100 个用户同时在用 es 做千万级别的复杂聚合
notreami
2019-03-12 13:12:40 +08:00
@luozhiyun 所以,我才问,大数据聚合,跟 ES 有关系嘛?直接上 hive 啊
airfling
2019-03-12 13:26:03 +08:00
吃的消,千万级的数据文档没啥问题的,我测试的每天 6kw 条记录,聚合查询三天内都会很快返回
bringyou
2019-03-12 13:34:34 +08:00
扛不扛得住还是看机器配置吧,我司数十亿的日志分析都是跑在 es 上的,只要配置够,别太抠就行。现在聚合查询、数据分析用 ELK 全家桶的很多,除了手写 es 查询,还可以看看 kibana
https://www.elastic.co/products/kibana
luozhiyun
2019-03-12 14:22:47 +08:00
@notreami 我这里有用 hive, hive 太慢了, 一个脚本跑下来基本半小时过去了
luozhiyun
2019-03-12 14:25:14 +08:00
@bringyou 日志系统我也有做 , 用的就是 ELK ,但是用来做聚合分析没有试过这种在大数据量下还有并发要求的实时计算的情况
notreami
2019-03-12 15:37:44 +08:00
@luozhiyun 这样问题就很清晰了,你需要的是实时大数据聚合计算。对应的不就是 stream、FlinkSQL 之类。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/543509

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX