按秒进行分库分表是个好的选择吗？

背景

有个服务要生成唯一 ID （支持批量），后续的查询（仅支持单条）也按照这个唯一 ID 来查，因此毫无疑问分库分表依据只能是这个唯一 ID 。

这个唯一 ID 可以看作雪花算法，里面有比如机器号码、时间戳、自增 ID 等信息（可以反解出来）。

问题

设计分库分表方法的时候，考虑了以下的方案：

均匀分布，例如按照 hash1(唯一 ID) % 10 来分库，按 hash2(唯一 ID) % 100 来分表。这样的好处是数据都会均匀，没有什么热点的问题。但是后来又觉得，因为生成的时候是批量生成的，例如生成了 200 个 ID 想写进表里，那如果全都是 hash 的，就会需要写多个库、多个表，而且很大可能没办法合并（因为是完全均匀的）。
为了减少事务数量，又想了个办法按照 "唯一 ID 中的时间戳+机器号码" % 10 来分库，这样同一台机器每秒内生成的 ID 都可以落到相同相同的 DB ，只用执行 1 次事务 INSERT 。
再后来又想把对表的写入也能批量完成，因为按照方案 2 ，如果分表的依据依然是 hash2(唯一 ID)%100 ，那有可能是在一个事务里面要写很多条 INSERT 到不同的表，效率也不搞。所以就想把分表的方案改成 hash2(唯一 ID 中的时间戳)，这样同一秒内生成的所有唯一 ID 都会落入相同的表了。

现在的实现是第三种方案，但是在表维度来说，短时间内会有热点问题（但是拉长了看依然是均匀的），想问下有经验的老哥，这种场景有风险、有更好的方案吗（ MySQL ，且暂不考虑替换其他中间件、数据库的方案）？

PS: 写入量可以暂且预估为每天要写入几千万行左右，数据量不大。

soupu626

2022-10-12 12:04:01 +08:00

看你的业务属性，唯一 id 的生成规则可以改下，前面还是雪花，然后尾部上加用户 id 后几位位或者租户 id 后几位或者你们业务划分的字段的后几位，然后按用户 /租户 id 取模来分库分表，这样保证同一业务属性的数据落在同一个库 /表里，按时间分的话，表太不均匀了吧，高峰数据很多，半夜基本没有数据

RedisMasterNode

2022-10-13 17:57:19 +08:00

@zmal 不行，写入不行挂掉就是符合预期的表现，银行业务，不能这样做。

“下游消费跟得上就没有延迟” 这个思路在系统设计里面绝对是有问题的吧，为什么引入一个额外流程能描述为 “如果 xxx 跟得上，那就没有 xxx”。

在设计时你应该认定 “如果引入异步，那它一定会（或早或晚）造成延迟”，造成延迟时会如何影响我的业务，这样考虑事情才对的呀，不能想当然，认为我把消费者处理得足够高性能足够快，就能解决这个问题。