有谁用过pymongo处理过大量数据的?进来看下啊

2013-01-23 14:25:56 +08:00
 justfly
我要把几个collection中的数据整合到一个collection中,来用一种更友好的数据结构,
用下面的python代码,db.index中有11W条数据,查出来组合再存入,估算了一下,在我的本子上完成要两个小时,各位大神,难道是我的方法不对?有办法优化吗

from pymongo import MongoClient

connection=MongoClient()
db=connection['wordnet']

def domerge():
allindex=db.index.find({})
i=0
for indexitem in allindex:
word={}
word['word']=indexitem['word']
word['concept']=[]
for conceptitem in indexitem['concepts']:
concept={}
concept['num']=conceptitem
concept['synonyms']=db.synonyms.find_one({"concept":conceptitem})['synonymses']
concept['gloss']=db.gloss.find_one({"concept":conceptitem})['gloss_en']
word['concept'].append(concept)
db.mergedata.insert(word)
i=i+1
print i

if __name__ == '__main__':
domerge()
4936 次点击
所在节点    MongoDB
6 条回复
cj1324
2013-01-23 14:44:06 +08:00
额 乱来。
这样事情肯定是 mongodb 内置的mapreduce来做。 而且不应该是实时性的
justfly
2013-01-23 15:24:07 +08:00
@cj1324 我觉得这方法肯定上不得台面,我去看看,mongo的mapreduce文档去了,若有具体做法 还请不吝赐教哈 谢了
lqs
2013-01-23 15:43:53 +08:00
如果 db.synonyms 和 db.gloss 不大,先查出来存个dict变量,这样就不用在每次for都来查这两个表。

另外mongodb的map-reduce只是一个用于公关宣传的功能。
justfly
2013-01-23 15:54:01 +08:00
@cj1324
mongodb的map-reduce文档我看了,适用于单个collection的统计,我要从多个collection拉数据组成新数据结构,貌似有点不适合。

@lqs
两个标各有8W左右数据,大约几M大小。如果存dict变量的话,我怎么查啊,有linq?
angeloce
2013-01-23 16:25:23 +08:00
@justfly

lqs 说的没错, 你这种n+1次查询是性能大忌.
16w 数据不多, 一般笔记本撑得住, 两个dict, conceptitem做key, synonymses 和 gloss_en 做value
justfly
2013-01-23 16:58:37 +08:00
@angeloce 感谢!按你的方法成功,速度提升接近100倍!长知识了,再次感谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/58512

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX