数据统计场景存储选型，大佬们帮帮忙

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1134 days ago, the information mentioned may be changed or developed.

场景是一个账务系统，对外提供入账、查询和收支统计功能。收支统计指的是可以查询用户纬度指定时间窗口内的入账金额总和。

老系统入账和查询是 mysql ，有三张表，分别是明细表、账户表、统计表，每次入账行为是先 insert 明细表，然后 update 账户表和统计表，后来优化入账流程，避免长事务，重构后统计表变成了通过明细表 binlog 异步去做。具体做法是把统计信息根据用户+日期维度存一个 kv 存储，每次消费入账明细去更新 value 。这个统计行为是半幂等的，value 里面存一个数组，只保留近 10 条明细的唯一键，每次更新这个数组 fifo 用来做幂等。

现在新需求场景是希望统计个性化场景的数据，比如入账行为分为工资、转账、退款等，那么只想统计某段时间的转账总和。

按照现在的 kv 做法，那么这种个性化场景就要做成单独的 key ，每次根据规则写到不同的 key ，这存在写放大问题，可能一条明细被统计到多个 kv 上去，而且需要考虑写多个 key 的一致性问题。

数据总量每天新增百亿行，用的是大分片库。可能的做法：

继续用 kv ，存一个大 json ，每一种统计场景对应一个 json 一级域的 key ，每次更新多个 key ，这样可以解决写放大问题，但是 value 会不断增长，要考虑是不是会大 key 。
mongoDB ，也相当于是存一个大 json ，好处是对于统计场景可以更个性化，不受限于结构；且 mongo 可以做事务，可以做全幂等（一次统计行为拆成两个 key ，第一个 key 做幂等，第二个 key 更新统计值）
clickhouse ，相当于明细表全量备份到 clickhouse ，每次查询是特定列的范围查询。但是 clickhouse 不适用于读多的场景，官方文档表示单机超过 100qps 会有问题，好像不适合这种在线读场景
mysql ，明细表搞一个从库专门用作统计，建好索引。但是单分片数据能有上亿行，读写 qps 大几百，可能会有问题。

大致就是这些，大佬们帮帮忙指点一下，感激不尽

key

明细表

统计

入账

5 replies • 2023-04-03 13:26:49 +08:00