Java 开发实习生,但是实习期间一直在弄些 hive 脚本的相关工作,维护现有的报表。 之前没了解过大数据相关,自学了两天 Hadoop 和 Hive 相关的东西,有一些疑问: 1 、由于公司是海外业务,aws 和 azure 用的比较多,数仓这一套东西全都搭在云上,用的是 aws EMR 服务 + aws S3 做存储。这里第一个问题:S3 作为存储服务,是和 HDFS 同级别的东西吗?是 S3 从根本上代替了 HDFS ,还是说 HDFS 是一种概念或者规范,S3 是 HDFS 的一种实现方式? 2 、如果是前者,那么 HDFS 架构中的 NameNode ,DataNode 这些概念,在 S3 中是必要的吗? S3 又是否有数据冗余的措施来保证数据的高可用?
初学者有很多基本的概念和理念还没有搞清楚,所以这可能是一个非常蠢的问题。求有经验的大佬们点拨一二
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.