有一个问题想请教一下大家, 数据有 200G , 18 亿行, 集群的环境内存有 3TB ;
我想对数据进行一些 “过滤”、 “统计”类似的操作, 类似于 mapTopair, reduceByKey 这样的操作,
但是自己写的程序却很慢。
我有疑问,这样的 RDD 操作和 按行读入文件,存储到一个 List 里面有什么区别?
按行读入文件以后也可以 进行判断、符合条件 add 这类的操作呀?
请问 RDD 的优势在哪里,或者说程序进行优化有什么需要注意的吗?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.