自己在电脑上用 virtualbox 搭了一个虚拟集群,3 台 centos,内存大小 2048mb,硬盘大小 48g 。一个 master 两个 slaves,都安装了 spark 和 hadoop 。 尝试跑了 wordcount,数据大概从 200mb 到 1500mb 。跑出来的结果是 hadoop 只比 spark 慢一点,有的数据量差不多快。 我很奇怪为什么会出现这样的结果。两者硬件条件一样,而且我两个都用的是 yarn 来分配资源,spark 的优势为什么显示不出来呢?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.