技能互换,求 Hadoop/MapReduce 小伙伴

2015-09-11 13:27:40 +08:00
 nower

有没有做过 Hadoop/MapReduce 实际应用的 v 友呢?跪求小伙伴传授入门经验。我是做体感人机交互、虚拟现实的,如果你也对此感兴趣,那就更好不过了。

3477 次点击
所在节点    程序员
16 条回复
Geoion
2015-09-11 14:05:35 +08:00
先 mark
xsjguagua
2015-09-11 17:30:41 +08:00
天天撸这个。。但很好奇,这 hadoop 和 lz 的虚拟现实方式有什么交集呢?
xunyu
2015-09-11 17:34:51 +08:00
mark, 楼主瓶颈在哪里
loryyang
2015-09-11 17:55:57 +08:00
hadoop 这种成熟的技术,自学就行了,多看看书,有时间的话看看源码,写几个 MR 。
说实话,实际场景遇到的问题,大部分自己是没法遇到的,因为你根本搭不起那么大的集群,这种经验只能去看别人写的文章或者去公司里面工作才能遇到
defunct9
2015-09-11 18:48:28 +08:00
管理过 600 节点(实体机)的 hadoop 集群,貌似开发人员用的多数是 hive 和 r
nower
2015-09-11 20:09:04 +08:00
@xsjguagua ,机器视觉
nower
2015-09-11 20:10:25 +08:00
@defunct9 能否说一下业务场景呢?
vietor
2015-09-11 20:42:14 +08:00
spark 呀
defunct9
2015-09-11 20:58:56 +08:00
@nower 我是运维.负责搭环境.貌似各种奇怪的玩意都装, storm , spark , facebook 的。但他门用的最多是 hive 。跑定时任务,好像是出数
xsjguagua
2015-09-11 21:20:47 +08:00
@nower 你是想搞分布式的图像识别模型训练么,这技术本身难度就不小。但即使不谈技术,你想快速的出模型,进行使用的话,集群资源也是问题啊
nower
2015-09-11 21:34:58 +08:00
@xsjguagua 目标图像较单一,是深度图,降低了技术难度。模型是随机森林
laozhao0
2015-09-11 21:36:15 +08:00
我是搞 hadoop 的,也是在数百台的集群上跑,好像每台机器内存 64G ,每天有数十 TB 的数据产生。
实际中如 @defunct9 所说,大多数时候用 hive , hadoop MR 一般写好一次就不管了,最多换一下配置文件。 MR 输出的文件 location 到 hive 表目录下,使用 hive 进行统计查询。 hive 的话,只要会写 SQL 语句,就没有入门的门槛。
所以,其实作为一般分析人员,没什么难度的,最多用 java 写一个 UDF ,或者用 python 写一个 streaming 。
更深的,我也不太懂。
现在可以学 spark 啊,简单又方便。
xsjguagua
2015-09-11 22:02:48 +08:00
@nower 如果图像简单的话,那单机训练出模型就可以了啊,使用的时候过模型的速度是很快的,即使要 online learning 的速度也是可以的。 mr 那套是离线处理,速度不够的
1000copy
2015-09-11 23:25:26 +08:00
互换技术,多新颖的想法。
xunyu
2015-09-11 23:30:42 +08:00
用 mesos spark 可能更符合你的需要, hadoop 落盘计算效率堪忧
AgentK
2015-09-12 05:34:05 +08:00
怎么换? 像武侠片一样把功力传给我吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/219923

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX