staticor
2016-08-16 06:59:50 +08:00
Hadoop the Definitive Guide, 3rd or 4th Edition.
太经典 绕不过. 稍微看一看也许能让题主要不要做这个.
另外, Hadoop 是一种以 MapReduce 模式进行批数据的处理框架, 不是语言, 常常看到的是以 Java 来完成的几个关键组件部分-mapper, reducer, combiner, partitioner...
如果是特别不习惯用 Java 则也能借助 Hadoop-Streaming 用其它的语言来部分替代, 但多少不方便.
Spark 是 DataBricks 公司(当时还是在实验室)的几个人提出的新的 BigData 模式, 使用 Scala(和 Java 非常亲昵), 由于性能和扩展的优势, Spark-Sql, Spark-MLlib, 慢慢被更多人认识.
个人觉得主要 Spark 的学习门槛要比 Hadoop 低一些, --- 有的时候你只要懂一些简单的 RDD 的操作 API, 能看懂一些简单的 Pyspark 或者是 Scala 的过程代码, 都能理解数据是怎样操作和变换的.
不过如果以大数据工程师作为目标, 二者都是要看的.
我自己是从事数据科学方向, 所以 Hadoop 的一些性能方面会考虑一些, 平时侧重是 Spark-Mllib 中的监督式机器学习的部分. 毕竟自己不会造轮子.