老板要写一个script 来分析几个文档,一个文档大约28,000,000 行(文件大小700M - 1G左右),有六个类似文档。
要求就是把里面同一个user id, 同一月里是同一hour,同一个weekday的数据加和,然后写出文档。
比如5.1号2点和5.8号2点的数据要加起来,如果时间段没相关数据,则为0
(文档里数据为2012年5月到12月)
script 写好了,在小文件上试验都可以跑而且结果是对的,现在问题是用在大文档上面了,已经跑了20个小时左右了,才跑了十分之一左右,若照现在的进度,这个script 跑完应该要花四五天。
我怀疑的瓶颈大约有两个一个有可能在文件读写IO,另一个可能是我的for loop (遍历5-12月,monday - sunday, 00点到23点)里花了太长时间process, 目前我还没想到可以优化的方法。
文件格式和现在的现在script都放在gist 里了,哪位大神给看看?
https://gist.github.com/airbob/9246248谢谢!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/102160
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.