请教百万条数据在 MongoDB 中的去重问题

数据库在本地，有某个 Field 重复，需要找出所有值相同的 Field 并合并。用 Python 简单遍历了下运行了几个小时后提示连接断开，请问还有别的方法吗~这种级别的数据是否必须要放到大数据框架中运算了

wangyanrui

2020-08-03 09:28:06 +08:00

假设一条数据假设 10KB, 全部加载也才 1GB 左右吧，现在普通电脑也都 16G 左右了，拿出来内存里面操作呗~
咋会运行几个小时~ 有点懵

fhsan

2020-08-03 09:32:00 +08:00

估计是顺序计算，找找并行方法，

pushback

2020-08-03 09:33:50 +08:00

你是不是批处理语句太长了

ghostviper

2020-08-03 09:34:29 +08:00

合并的逻辑你要先定义好；几个小时断开估计是 mongodb 的 connection 连接超时了；如果数据过大，你可以将 Field hash 以下利用 bloom filter 作为去重机制，放在内存或者 redis 很快就完了；另外不知道你合并逻辑是否耗时，如果耗时可以先标记再来查找合并

swulling

2020-08-03 09:53:18 +08:00

写一个简单的 Python 脚本：

1. 顺序读出所有数据的对应 Field，放入 Python 的 Dict，Key 为 Field 值，Value 为 ObjectID
2. 放入之前判断是否已经有对应的 Key，如果有，和对应的 ObjectID 的数据进行合并写回 MongoDB 即可。此处也可以不直接写回，而是将重复的 ObjectID 写到别的什么地方，最后再统一处理

百万条没有任何问题，估计内存也就消耗 1G 这个量级。而且怎么可能用几个小时，顺序读取速度可以拉满的