搭建过程和配置文件专门用 VuePress 记录了一下:前往日志
集群单个节点的配置:1VCPUs 2GB 5Mbps , 内存分配策略:参考了 Linode 的 2GB 节点配置教程
服务器用的廉价的阿里云的轻量应用服务器学生版,几个同学一人一台,拼凑了一个拥有 5 个节点的集群。
使用 Hive 导入社交用户数据 CSV 文件,使用 SQL 塞选出用户表中的共同爱好、共同好友。
在这个集群上做简单的 Map 和 Reduce 作业是极其缓慢的,从 0%
跳到 100%
可能会经历数十分钟,效率堪忧。由于各个节点是同学自己买的,不能走 VPC 内网互通,只好用公网互通。👈怀疑问题会出现在这里
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2019-01-09 19:56:25,499 Stage-1 map = 0%, reduce = 0%
INFO : Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
INFO : 2019-01-09 19:56:25,499 Stage-1 map = 0%, reduce = 0%
2019-01-09 19:57:26,238 Stage-1 map = 0%, reduce = 0%
INFO : 2019-01-09 19:57:26,238 Stage-1 map = 0%, reduce = 0%
2019-01-09 19:58:26,818 Stage-1 map = 0%, reduce = 0%
INFO : 2019-01-09 19:58:26,818 Stage-1 map = 0%, reduce = 0%
2019-01-09 19:59:27,374 Stage-1 map = 0%, reduce = 0%
INFO : 2019-01-09 19:59:27,374 Stage-1 map = 0%, reduce = 0%
2019-01-09 20:00:27,878 Stage-1 map = 0%, reduce = 0%
...
2019-01-09 20:17:32,700 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.69 sec
INFO : 2019-01-09 20:17:32,700 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.69 sec
2019-01-09 20:18:33,218 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.69 sec
INFO : 2019-01-09 20:18:33,218 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.69 sec
使用相同的 SQL 语句换做在 E-MapReduce 上能很块跑出结果(加钱世界可及)。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.