千万级数据的去重的性能问题，欢迎一起讨论！ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Redis

› Redis 入门指南

› phpRedisAdmin

› Deploy Redis on Ubuntu or Debian

这是一个创建于 3795 天前的主题，其中的信息可能已经有所发展或是发生改变。

场景：需要对redis中的不同的千万级set集合之间做去重，一直使用sdiff，但是随着数据量的增大，sdiff命令变得越来越不可靠，容易导致cpu过高，导致redis长时间无响应。
目前redis已经做了一致性哈希的分片，16台redis节点集群，每个set集合平均分到16台redis节点上。除了横向扩展，是否有更为高效的去重方案取代redis的sdiff命令？

8 条回复 • 2015-09-05 17:50:57 +08:00

1

kslr

2015-08-02 22:28:44 +08:00

允许有误差么？可以看看布隆过滤器（ 3亿级的数据正在用

2

zhicheng

2015-08-02 22:32:53 +08:00

1

允许多大的误差？可以看看 HyperLogLog https://en.wikipedia.org/wiki/HyperLogLog

3

fszaer

2015-08-02 22:54:11 +08:00

@zhicheng
然而 redis中的 HyperLogLog 只能求近似基数
如何应用到去重中？？？

4

Lax

2015-08-03 12:52:35 +08:00

@fszaer HLL 可以根据返回值判断是否已经被计数过。

5

jiehuangwei

2015-08-03 17:54:26 +08:00

去重用这个 Bloom Filter

6

hktony

OP

2015-09-01 16:25:17 +08:00

@kslr 不允许有误差， bloom filter 算法误差率最低可以控制在多少？
@jiehuangwei bloom filter 可以对两个不同集合之间做差集吗？

7

kslr

2015-09-01 16:49:06 +08:00

@hktony 这个需求适合 redis 的集合

8

hktony

OP

2015-09-05 17:50:57 +08:00

@kslr 现在其实就是用 redis 的 set 集合两两做差集做的

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 2247 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 33ms · UTC 16:09 · PVG 00:09 · LAX 08:09 · JFK 11:09
♥ Do have faith in what you're doing.