@
dawnchen123 先搭集群,搭集群尤其自己搭那是非常难,虚拟机不建议用。简化流程,你可以买百度的云主机,100 多点一台能用 1 年,有钱你买 3 台。
困难路线:
搭 3 台的土豪线路:每个主机安装一 hadoop,然后 3 台主机彼此之间做免密钥。这 3 台 hadoop 主机就可以看做一个整体。然后安装 zookeeper,spark。
然后点开 eclipse 或者其他什么软件,安装依赖,然后自己用代码生成数据集,之后用 scala 写一个脚本 rdd 转化流程。从数据集中读取数据,然后处理后落地 hadoop 文件夹中。rdd 具体写什么可以上网找找有没有相关题目。
测试没错后打包扔进去服务器。使用 spark 命令行进行启动,落地数据。
很有条件再上个 azkaba 调度器。
比较简单的线路:
搭一台线路:安装 hadoop,安 zookeeper,安装 spark,然后点开 sparkshell,把网上找来的代码复制粘贴到里面看看会发生什么。
很简单的线路:
上网找个教程,比如尚硅谷,然后跟着听课跟着做。人家水平不错的。
我推荐最后一种。