求助:百万级数据报表统计有哪些解决方案?

2021-03-31 14:24:14 +08:00
 3country

SQLServer 的多表查询,每个表百万条数据,增量不多,要求实时变化或者 5 分钟刷新一次,有啥好的解决方案吗?

ES 适合做吗?(公司有 ES 集群,大数据框架我只接触过 es )

4081 次点击
所在节点    程序员
27 条回复
tairan2006
2021-04-01 11:23:24 +08:00
百万级直接用关系型数据库都能扛得住…

搞聚合查询不算是 es 专长,可以考虑 clickhouse 或者 greenplum,甚至 flink
shanghai1943
2021-04-01 17:32:19 +08:00
@long2ice #17
@Alexf4 #19 两位大哥。clickhouse 貌似不支持高并发的吧。
leeg810312
2021-04-01 20:58:51 +08:00
年报统计 5 分钟刷一次?定这技术需求的人是不是从来没有做过 OLAP ?月报年报根本不可能是实时报表,都是定期任务,明细数据输入截止后执行一晚上,第二天就能看所有报表了,即使单表上千万也足够。上亿数据就得用大数据计算框架,Spark/Flink 等都可以,但这得准备很多硬件资源
Alexf4
2021-04-02 09:18:34 +08:00
@shanghai1943 clickhouse 做 OLAP 比较合适,高并发这个要求得看具体场景,很多大厂还是有 clickhouse 的实践经验的。
3country
2021-04-02 13:02:58 +08:00
@leeg810312 公司应该是想做实时数据分析,这方面用什么框架?
leeg810312
2021-04-03 08:30:20 +08:00
@3country Spark/Flink 都可以做实时流式计算,需要配合 Kafka,场景是类似用户行为分析(商用),交通流量分析(公共服务)这样,短时间窗口内快速计算较多数据(例如 10 秒 1000 下单的分析),几秒出结果。报表属于离线计算,针对每次几千万数亿或更多的数据量,可能要 10 几分钟甚至几小时才出结果。建议厘清实际技术需求做些调研。
3country
2021-04-05 14:33:27 +08:00
@leeg810312 好的,谢谢老哥解惑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/766862

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX