请教百万条数据在 MongoDB 中的去重问题

2020-08-03 09:19:55 +08:00
 huyinjie
数据库在本地,有某个 Field 重复,需要找出所有值相同的 Field 并合并。用 Python 简单遍历了下运行了几个小时后提示连接断开,请问还有别的方法吗~这种级别的数据是否必须要放到大数据框架中运算了
6282 次点击
所在节点    MongoDB
10 条回复
wangyanrui
2020-08-03 09:28:06 +08:00
假设一条数据假设 10KB, 全部加载也才 1GB 左右吧,现在普通电脑也都 16G 左右了,拿出来内存里面操作呗~
咋会运行几个小时~ 有点懵
fhsan
2020-08-03 09:32:00 +08:00
估计是顺序计算,找找并行方法,
pushback
2020-08-03 09:33:50 +08:00
你是不是批处理语句太长了
ghostviper
2020-08-03 09:34:29 +08:00
合并的逻辑你要先定义好;几个小时断开估计是 mongodb 的 connection 连接超时了;如果数据过大,你可以将 Field hash 以下利用 bloom filter 作为去重机制,放在内存或者 redis 很快就完了;另外不知道你合并逻辑是否耗时,如果耗时可以先标记再来查找合并
swulling
2020-08-03 09:53:18 +08:00
写一个简单的 Python 脚本:

1. 顺序读出所有数据的对应 Field,放入 Python 的 Dict,Key 为 Field 值,Value 为 ObjectID
2. 放入之前判断是否已经有对应的 Key,如果有,和对应的 ObjectID 的数据进行合并写回 MongoDB 即可。此处也可以不直接写回,而是将重复的 ObjectID 写到别的什么地方,最后再统一处理

百万条没有任何问题,估计内存也就消耗 1G 这个量级。而且怎么可能用几个小时,顺序读取速度可以拉满的
janxin
2020-08-03 09:53:57 +08:00
用 pymongo 操作过几百万数据,不至于几个小时没处理完啊...实在不行可以跑 MongoDB aggregate
CoderGeek
2020-08-03 09:58:07 +08:00
我觉得你们是在嗨 py 233
gnozix
2020-08-04 10:05:03 +08:00
aggregate 不能做吗?
libook
2020-08-05 11:33:05 +08:00
上千万数据做过遍历,没遇到过这个问题。。。

跑脚本的时候看一下数据库负载,用了聚合的话看看是不是需要 allowDiskUse,如果断开了看看脚本和数据库的日志,是不是需要调节一些超时时间。

另外 Python 脚本本身会不会因为资源不足而挂掉。
514146235
2020-08-10 16:56:15 +08:00
试一下 mongodb 的 mapreduce,应该很快就完成了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/695148

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX