用 redis 进行重复值校验，有啥好的数据结构

2022-03-08 10:33:57 +08:00

leebs

对提交的数据校验是否重复，db 在不加索引的情况下，大数据量查询很慢。

将数据都缓存到 redis 中，如果直接用 set 、hash 这种结构，基于 member/field 校验重复值，需要缓存原数据，浪费空间，而且 redis key 、set member 有上限。

有没有其他的，类似布隆过滤器这种基于 hash 运算，节省空间的方法。（布隆不支持删除，不考虑）

bitmap 需要做数据-offset 映射，而且 bitmap 没有压缩，如果 offset 映射出来是 2^32-1 ，直接就干满 512MB 了。

3861 次点击

所在节点

Redis

15 条回复

MoYi123

2022-03-08 10:38:39 +08:00

roaringbitmap

leebs

2022-03-08 10:51:12 +08:00

@MoYi123 字符串转换成数字有什么好的编码方案嘛。

edward1987

2022-03-08 11:01:28 +08:00

原数据是字符串的话，有长度和编码吗？如果都不固定，那就只能存原数据了吧。hash 会有碰撞的可能，不满足你的业务需求

blu10ph

2022-03-08 11:14:22 +08:00

HyperLog

Maboroshii

2022-03-08 11:16:46 +08:00

md5 哈希，存数据库加索引

corningsun

2022-03-08 11:36:59 +08:00

@Maboroshii

+1 ，数据库单独建表，摘要字段设置唯一索引，直接插入，报错就说明有值了，删除也快。

labulaka521

2022-03-08 11:59:14 +08:00

为什么不加个哈希索引呢？前几天看个帖子百亿数据百毫秒查出

leebs

2022-03-08 13:39:58 +08:00

@labulaka521 mongodb 文档型结构，字段名不是固定的。

ffxrqyzby

2022-03-08 13:45:29 +08:00

https://github.com/aviggiano/redis-roaring
redis 可以用这个, 亲测压缩效果不错
另外看你们业务场景, 大数据离线可以用一些好用的 olad, 基本天生支持 HLL, bitmap, 毫秒级去重

ffxrqyzby

2022-03-08 13:45:53 +08:00

olad -> olap

MoYi123

2022-03-08 14:15:51 +08:00

@leebs 看你能接受 bitmap 才提得, 根据鸽笼原则, string 转 int 肯定是没有准确的方案的.

lbp0200

2022-03-08 14:51:34 +08:00

复合主键
HBASE
tendis

swcat

2022-03-09 08:55:16 +08:00

我是这样做的, (crc32 + hash 取 n 个字符) + 字符串全校验

leebs

2022-03-09 09:11:07 +08:00

@swcat 数据存在哪边呢

swcat

2022-03-09 11:23:22 +08:00

@leebs 存 mysql 可以啊, 存 redis 也可以啊, 存文件都行啊, crc32 + hash 只是初步过滤 key 存在不存在, 能挡住大部分非重复值, 前面的相同了后面再全字符串校验, 只是为了防止冲突
胆子大, 路子野, 再用一种 hash 算法来代替字符串全校验也不是不行

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/838798

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.