大数据如何快速过滤????

2018-07-23 16:45:27 +08:00
 darren2900

mysql 里有 1000W 手机号,如何将提供的 100W 号码在 1000W 里出现过的快速过滤掉?

2130 次点击
所在节点    程序员
3 条回复
gorilla
2018-07-23 17:00:11 +08:00
Pandas,或者 Spark
两个数据集,求差集~
linyinma
2018-07-23 17:53:34 +08:00
[这种问题最好还是和需求结合起来说明]
如果单纯说算法这是很简单的将 1000W 条数据从 MySQL 导出创建 bitmap 索引,查询算法就是 O ( 1 ),这是最快的
darren2900
2018-07-24 19:55:54 +08:00
需要实时,用户上传 100W 号码,就直接把 100W 中在 1000W 出现的过滤掉,1000W 记录当前是在 mysql

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/473375

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX