关于上亿数据的统计问题

2020-10-13 17:05:04 +08:00
 duyuyouci

现在数据库有一张表数据已经过亿了,需要从不同维度统计按日,按月的数据,有没有什么好的解决方案呀,求教各位大神

3638 次点击
所在节点    程序员
23 条回复
imherer
2020-10-13 17:11:33 +08:00
再建一张表把统计结果放进去,下次有用户统计的时候直接展示统计结果表里的数据即可
clf
2020-10-13 17:12:50 +08:00
看看 ClickHouse ?
duyuyouci
2020-10-13 17:13:40 +08:00
@imherer 现在有几个维度是这样做的,但是还存在修改往日数据的场景,有没有类似于数据订阅那样的统计,或者是实时查询效率比较高的方案
duyuyouci
2020-10-13 17:15:45 +08:00
@lychs1998 我去了解一下
misaka19000
2020-10-13 17:19:14 +08:00
Spark
NeezerGu
2020-10-13 17:19:43 +08:00
涉及上亿数据按天 /月 group by 的建议找大数据团队走 hive 来统计吧?

如果没有这方面的资源,那我很怀疑直接跑 sql,会比直接 select 出来然后 python 来跑还要慢?

另外如 1L,如果不不涉及历史记录修改,只涉及增量数据更新,那建议直接生成每天的结果数据,然后单独保存展示
sonice
2020-10-13 17:30:09 +08:00
为啥都觉得上亿就多,单机的 es 或者 clickhouse 解决都是轻轻松松
duyuyouci
2020-10-13 17:33:22 +08:00
@sonice 对于不同维度的聚合操作也是可以吗,老哥
duyuyouci
2020-10-13 17:33:54 +08:00
@NeezerGu 可能 select 就要很久😂
maniaccn
2020-10-13 17:42:29 +08:00
@duyuyouci 可以不同维度聚合的,es 很好用
huayumo
2020-10-13 18:06:31 +08:00
我也觉得 es 挺好用
jenlors
2020-10-13 21:36:35 +08:00
ClickHouse 可以满足你
hooopo
2020-10-13 21:39:47 +08:00
@NeezerGu select 比 python 慢?搞笑吧
NeezerGu
2020-10-13 21:47:13 +08:00
@hooopo 第一我说了只是感觉;第二我猜你没做过数据分析,个人感觉外行在很多时候往往特自信
hooopo
2020-10-13 22:00:36 +08:00
@NeezerGu 我只是看了你的回复 觉得你特自信 还特别搞笑
user8341
2020-10-14 00:41:03 +08:00
wellsc
2020-10-14 01:40:50 +08:00
时序数据库
lifanxi
2020-10-14 01:55:33 +08:00
https://www.aliyun.com/product/bigdata/hologram

新一代 HSAP 系统 Hologres 了解一下? 1 亿数据毛毛雨。
rapperx2
2020-10-14 08:19:05 +08:00
我们公司也是过亿表遇见你这种情况,现在方案是迁移数据库 clickhouse (之前是 sqlserver )
NeezerGu
2020-10-14 09:05:24 +08:00
@hooopo 哦?我怎么感觉更像是跳梁小丑来挑衅?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/714575

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX