在高并发下，怎样能给每个请求返回 100 条不重复的记录呢？

yidinghe

2017-01-06 00:40:42 +08:00

我觉得这等同于 10 万条记录每次取一条，不重复。

Miy4mori

2017-01-06 02:11:57 +08:00

@kimwang 你觉得你的程序可以不通过 SQL 直接查询数据库的数据吗，包装一层 API 再用生成 SQL 查询效率高还是直接使用手动优化过的 SQL 效率高？当然都没有存储过程效率高。

Miy4mori

2017-01-06 02:17:32 +08:00

都在考虑即时的方案，我来给你讲个非主流的，在插入数据的时候预先分组或者定期对没有分组的数据分组，然后查询的时候直接通过分组表和你的数据表关联查询，标记业务完成状态也标记分组表。简单粗暴，就是实时性不高，不过你这种定期统计类似的需求貌似也不需要太高的实时性。还有一个问题就是事务控制要稍微麻烦点。

shiny

2017-01-06 02:55:16 +08:00

楼上分组的思路好。预先分组，每次查询自增一个分组 ID ，性能绝对好。

cnwtex

2017-01-06 03:01:27 +08:00

MySQL 有 select random （ 100 ）

chuhemiao

2017-01-06 10:22:28 +08:00

@cnwtex 不是说用函数效率会很低？

hdlove

2017-01-06 10:39:17 +08:00

使用 redis 分布式锁，先取出 100 条，进行循环，设置传入单独标示，单独的 key,加数据库一个不重复的值，再设置过期时间，可以上网上搜下类似相关的文档，一套你就明白了

xpresslink

2017-01-06 11:17:31 +08:00

这个明显要用 producer 和 consumer 模式，一个线程专门做 producer 从数据库里取数据，每次批量一 100 条放到队列里。其它开 N 个 consumer 线程分别从队列里取每次取 100 条云处理。

jianzhiyao020

2017-01-06 11:18:46 +08:00

1.ID 分组，调起不同线程的时候，确定线程负责的 ID 范围
2.利用生成者生成 ID 范围的队列，消费者直接根据获得的 ID 范围自己撸

realpg

2017-01-06 12:13:04 +08:00

@dolee
你 18 楼这个 UPDATE 就是我说的中间值法的变种
用 redis 啥的徒增一层逻辑没必要

sbugzu

2017-01-06 14:52:48 +08:00

如果 ID 是自增的或者有序的，直接通过 ID range 对每 100 个分组从数据库取数（ a 可以用一个集中的分组程序或者 Redis 一类来实现分布式锁。 b 再简单点按线程数不同线程使用不同的步长），上面直接 limit 的同学数据量大了必然出现深翻页的性能问题。

dolee

2017-01-09 02:45:21 +08:00

@realpg
用这个方法测试了两天，效率提高了很多，但是还是不够……
并发量太大， MYSQL 压力还是很大，很容易挂掉……

另外数据量不是固定 1000W 的，每天还会增加 100W 左右
如果用 Redis 效率应该会更高吧^_^

dolee

2017-01-09 02:46:15 +08:00

感谢大家的热心解答~
现在已经有解决的思路，谢谢大家

dolee

2017-01-09 02:48:11 +08:00

@cnwtex 之前也用了随机数，但性能很不好呢，高并发下查询一次基本要数十秒，后面就舍弃了

realpg

2017-01-09 09:58:00 +08:00

@dolee
主要是你们 DBA 的问题
查询没有统一规划吧
锁问题，内存问题都没有统一协调

我说一下我的场景
一个巨大的票务系统，每一个座位就是一条记录，峰值时候一天增加 300GB 新席位数据（不是同一个表，分表）同时删除 300GB 过期数据（热查询数据库删除，备份数据不删除）

当你在网站上订 N 张票时候，随机将 N 个符合筛选条件的席位的 state 从 0 改为 1[占用]（ update 至中间变量获取占用数，因为有可能要 3 张票只有 2 张需要获取数量，然后再修改 state 为 1 ）

在我这个规模的数据下，单纯使用特殊布置的四 MYSQL 负载均衡系统， MYSQL 并不会造成挂掉（很庞大的在线用户量的大系统）

beny

2017-01-09 11:42:27 +08:00

@akira 你这样把机器搞挂了

akira

2017-01-09 21:18:45 +08:00

@beny 怎么说