关于上亿数据的统计问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1644 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在数据库有一张表数据已经过亿了，需要从不同维度统计按日，按月的数据，有没有什么好的解决方案呀，求教各位大神

求教

大神

数据

统计

23 条回复 • 2020-10-14 11:40:19 +08:00

imherer

2020-10-13 17:11:33 +08:00

再建一张表把统计结果放进去，下次有用户统计的时候直接展示统计结果表里的数据即可

clf

2020-10-13 17:12:50 +08:00

看看 ClickHouse ？

duyuyouci

2020-10-13 17:13:40 +08:00

@imherer 现在有几个维度是这样做的，但是还存在修改往日数据的场景，有没有类似于数据订阅那样的统计，或者是实时查询效率比较高的方案

duyuyouci

2020-10-13 17:15:45 +08:00

@lychs1998 我去了解一下

misaka19000

2020-10-13 17:19:14 +08:00

Spark

NeezerGu

2020-10-13 17:19:43 +08:00

涉及上亿数据按天 /月 group by 的建议找大数据团队走 hive 来统计吧？

如果没有这方面的资源，那我很怀疑直接跑 sql，会比直接 select 出来然后 python 来跑还要慢？

另外如 1L，如果不不涉及历史记录修改，只涉及增量数据更新，那建议直接生成每天的结果数据，然后单独保存展示

sonice

2020-10-13 17:30:09 +08:00

为啥都觉得上亿就多，单机的 es 或者 clickhouse 解决都是轻轻松松

duyuyouci

2020-10-13 17:33:22 +08:00

@sonice 对于不同维度的聚合操作也是可以吗，老哥

duyuyouci

2020-10-13 17:33:54 +08:00

@NeezerGu 可能 select 就要很久😂

maniaccn

2020-10-13 17:42:29 +08:00

@duyuyouci 可以不同维度聚合的，es 很好用

huayumo

2020-10-13 18:06:31 +08:00

我也觉得 es 挺好用

jenlors

2020-10-13 21:36:35 +08:00

ClickHouse 可以满足你

hooopo

2020-10-13 21:39:47 +08:00

@NeezerGu select 比 python 慢？搞笑吧

NeezerGu

2020-10-13 21:47:13 +08:00

@hooopo 第一我说了只是感觉；第二我猜你没做过数据分析，个人感觉外行在很多时候往往特自信

hooopo

2020-10-13 22:00:36 +08:00

@NeezerGu 我只是看了你的回复觉得你特自信还特别搞笑

9LCRwvU14033RHJo

2020-10-14 00:41:03 +08:00

这个文章还是可以借鉴的
tech.meituan.com/2020/04/09/doris-in-meituan-waimai.html

wellsc

2020-10-14 01:40:50 +08:00

时序数据库

lifanxi

2020-10-14 01:55:33 +08:00 via Android

https://www.aliyun.com/product/bigdata/hologram

新一代 HSAP 系统 Hologres 了解一下？ 1 亿数据毛毛雨。

rapperx2

2020-10-14 08:19:05 +08:00

我们公司也是过亿表遇见你这种情况，现在方案是迁移数据库 clickhouse （之前是 sqlserver ）

NeezerGu

2020-10-14 09:05:24 +08:00

@hooopo 哦？我怎么感觉更像是跳梁小丑来挑衅？

kaiz1121

2020-10-14 09:58:24 +08:00

如果是单表，可以选择 clickhouse,但是 clickhouse join 操作不行，但 clickhouse 单表还是宇宙第一。复杂多表不能单单靠一个组件就解决的。需要上一套系统，从 ETL 开始监听 MySQL binlog，或者写入 mysql 的业务，双写到消息队列，然后把数据同步到写优化层，比如 hudi，然后从从写优化层导入到读优化层，比如 doris，然后从 doris 查询就很快了。如果是简单的统计，可以用 hbase，不用引入读优化层，和写优化层。但是如果是报表类的复杂查询，hbase 是不够的，有钱的话，直接用 ES，省心，慢了加机器。还是得看具体业务需求。

laminux29

2020-10-14 10:21:23 +08:00

什么业务，什么设备以及设备性能指标，什么系统，什么软件，数据结构怎样，相关设备最近一个月以分钟为粒度的负载表，你做这事有什么资源，做着事有什么性能指标或特性偏向，等等。你问的这个问题，至少要给出以上这些基本这些信息。不然，让我学楼上所有老哥，激活天赋技能 [先知] ，进行盲猜？

而且你做这事，信息安全，数据权限，备份等问题，你还得自己想好怎么处理。

madworks

2020-10-14 11:40:19 +08:00

上亿数据，不同维度，按日按月？？？直接报表工具啊，powerbi，tableau，ssas