自建 5 个节点的 Hadoop 集群，以及完成 MapReduce 作业

集群规划和搭建过程

搭建过程和配置文件专门用 VuePress 记录了一下：前往日志

集群单个节点的配置：1VCPUs 2GB 5Mbps , 内存分配策略：参考了 Linode 的 2GB 节点配置教程
服务器用的廉价的阿里云的轻量应用服务器学生版，几个同学一人一台，拼凑了一个拥有 5 个节点的集群。

数据处理

任务

使用 Hive 导入社交用户数据 CSV 文件，使用 SQL 塞选出用户表中的共同爱好、共同好友。

Map Reduce 作业问题

在这个集群上做简单的 Map 和 Reduce 作业是极其缓慢的，从 0% 跳到 100%可能会经历数十分钟，效率堪忧。由于各个节点是同学自己买的，不能走 VPC 内网互通，只好用公网互通。👈怀疑问题会出现在这里

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2019-01-09 19:56:25,499 Stage-1 map = 0%,  reduce = 0%
INFO  : Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
INFO  : 2019-01-09 19:56:25,499 Stage-1 map = 0%,  reduce = 0%
2019-01-09 19:57:26,238 Stage-1 map = 0%,  reduce = 0%
INFO  : 2019-01-09 19:57:26,238 Stage-1 map = 0%,  reduce = 0%
2019-01-09 19:58:26,818 Stage-1 map = 0%,  reduce = 0%
INFO  : 2019-01-09 19:58:26,818 Stage-1 map = 0%,  reduce = 0%
2019-01-09 19:59:27,374 Stage-1 map = 0%,  reduce = 0%
INFO  : 2019-01-09 19:59:27,374 Stage-1 map = 0%,  reduce = 0%
2019-01-09 20:00:27,878 Stage-1 map = 0%,  reduce = 0%

...

2019-01-09 20:17:32,700 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.69 sec
INFO  : 2019-01-09 20:17:32,700 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.69 sec
2019-01-09 20:18:33,218 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.69 sec
INFO  : 2019-01-09 20:18:33,218 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.69 sec

测试

使用相同的 SQL 语句换做在 E-MapReduce 上能很块跑出结果（加钱世界可及）。

还未结束

Q1: 同样的 2G 内存节点，在本地虚拟机上就能正常运行，不会在 MapReduce 作业上卡数十分钟

whatsmyip

2019 年 1 月 9 日

数据数据量不是很大的话，应该是配置的问题吧，玩的少，具体不清楚。

跑作业任务的话，8G 的笔记本就可以了，或者向楼上说的一样，把你们每个人的笔记本放在一起，做集群。

我之前用渣渣笔记本跑了一个 master，3 个 worker，绰绰有余，就是跑起来会卡。

如果你对 docker 略微熟悉的话，这是之前基于 docker 部署 hadoop 跟 hive 的两篇文档：

https://blog.newnius.com/how-to-quickly-setup-a-hadoop-cluster-in-docker.html

https://blog.newnius.com/setup-apache-hive-in-docker.html