求助,入门学习大数据,想学习 Hadoop 语言,童鞋们 有什么好书推荐的,最好是京东能买到的~

2016-08-15 17:09:57 +08:00
 goodboy
5923 次点击
所在节点    程序员
23 条回复
liprais
2016-08-15 17:26:12 +08:00
先想清楚学了之后想干啥,再考虑要学啥
goodboy
2016-08-15 17:28:08 +08:00
@liprais 现在想学习大数据方面的知识,先从数据储存技术学习,之后再学习数据处理相关的知识,不晓得这样考虑对不对,还望大师们指教~谢谢~
gzxultra
2016-08-15 17:36:22 +08:00
Hadoop 不是语言啊兄弟,先学好 java
goodboy
2016-08-15 17:52:06 +08:00
@gzxultra 那怎么才能进入到大数据的学习中去呢?还请赐教!
panlilu
2016-08-15 17:56:54 +08:00
学习大数据,搭环境是入门的步骤里最困难的,所以建议你可以先研究一下 docker
20015jjw
2016-08-15 18:04:38 +08:00
先学 Python 然后学 spark 我校 lab 出的 比 Hadoop 好写 3 倍
zonghua
2016-08-15 18:20:06 +08:00
@goodboy 《数据挖掘概念与技术》
goodboy
2016-08-15 18:25:45 +08:00
@zonghua 感谢,学习了~
shyling
2016-08-15 18:39:02 +08:00
hadoop 语言是啥
codeyung
2016-08-15 19:55:25 +08:00
先学 JAVA 或者 Python 在看 Spark 吧
DarryO
2016-08-15 21:35:11 +08:00
以前学的时候,找教材最头疼的是版本的问题。当时 2.x 版本出来时,市面上流行的教材还留在 1.x 版本。不同版本还是挺有区别的。感觉看看书了解一下开发思路,程序结构以后,如果没有较新版本配套的书,可以去看文档的。

另外,搭环境真的挺困难的,就是直接学 spark ,也有基于 hadoop 的 yarn 的...总是要试试的。(不要盲目相信搜到的博客内容ˊ_>ˋ...)

另外的另外,虽然 spark 说是性能高,那也要考虑实际环境。之前去实习的时候(去年)感觉用 hadoop 的还蛮多的


以上个人看法,有一年没碰过了,不太清楚现在情况变了没
paulw54jrn
2016-08-15 22:12:35 +08:00
Hadoop 语言...

可以试试 Python + Spark, 先看 Spark Standalone 的, 然后看看 YARN/Mesos 等不同部署的方式.

MapR 的免费课程作为入门不错:
https://www.mapr.com/services/mapr-academy/apache-spark-essentials

UCBX 的 Spark 入门也可:
https://www.edx.org/course/big-data-analysis-apache-spark-uc-berkeleyx-cs110x
xfwduke
2016-08-15 22:19:46 +08:00
这东西如果没马上能用上的地方, 学起来收获其实不大
最后也就学会了怎么搭一个 hadoop 集群和用 java 调用它的 api
自己构造的那几 G 的数据(这估计算很有耐性的了), 真心感觉不出这东西有什么优势, 反而麻烦的要死
然后没几天就全忘记干净了

这样的经历, 对找工作估计也没什么作用
vinceguo
2016-08-15 22:32:36 +08:00
不想花时间搭环境的话,下一个 cloudera quick start vm ,虚拟机里面把什么都装好了
billlee
2016-08-16 00:14:33 +08:00
0 基础就不要想着直接学大数据了,先把数学和 Java 学好
staticor
2016-08-16 06:59:50 +08:00
Hadoop the Definitive Guide, 3rd or 4th Edition.

太经典 绕不过. 稍微看一看也许能让题主要不要做这个.

另外, Hadoop 是一种以 MapReduce 模式进行批数据的处理框架, 不是语言, 常常看到的是以 Java 来完成的几个关键组件部分-mapper, reducer, combiner, partitioner...

如果是特别不习惯用 Java 则也能借助 Hadoop-Streaming 用其它的语言来部分替代, 但多少不方便.

Spark 是 DataBricks 公司(当时还是在实验室)的几个人提出的新的 BigData 模式, 使用 Scala(和 Java 非常亲昵), 由于性能和扩展的优势, Spark-Sql, Spark-MLlib, 慢慢被更多人认识.
个人觉得主要 Spark 的学习门槛要比 Hadoop 低一些, --- 有的时候你只要懂一些简单的 RDD 的操作 API, 能看懂一些简单的 Pyspark 或者是 Scala 的过程代码, 都能理解数据是怎样操作和变换的.

不过如果以大数据工程师作为目标, 二者都是要看的.

我自己是从事数据科学方向, 所以 Hadoop 的一些性能方面会考虑一些, 平时侧重是 Spark-Mllib 中的监督式机器学习的部分. 毕竟自己不会造轮子.
wander2008
2016-08-16 08:54:22 +08:00
hadoop 语言……,你还是别学习了。先学习 java 基础吧
gxustudent
2016-08-16 12:44:37 +08:00
[ 澄观见韦小宝什么拳法都不会,也不生气,说道:“咱们少林派武功循序渐进,入门之后先学少林长拳,熟习之后,再学罗汉拳,然后学伏虎拳,内功外功有相当根柢了,可以学韦陀掌。如果不学韦陀掌,那么学大慈大悲千手式也可以……” ......
韦小宝道:“你开始学武,到练成一指禅,花了多少时候?”

澄观微笑道:“师侄从十一岁上起始上少林长拳,总算运气极好,拜晦智禅师座下,学得比同门师兄弟们快得多,到五十三岁,于这指法已略窥门径。”
]
咱们 hadoop 语言循序渐进,入门之后先学 java ,熟习之后,在学 hdfs ,然后学 yarn.....
goodboy
2016-08-16 14:18:49 +08:00
@感谢各位,原来这么多东西需要学习的,看来自己知道太少了,很多名词也只是自己偶尔看过, java 只是上学的时候接触过,早已忘记了~,一切看来都得重头开始了,看来这些不是短期内能有效果的。
Allianzcortex
2016-08-16 16:01:10 +08:00
@20015jjw 膜拜 Berkely~~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/299439

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX