现在业界处理大数据不用 spark hadoop 了?

2022-10-01 16:32:38 +08:00
 berserk

昨天和一个博四的师弟聊到这。我说我之前处理大数据用这些东西。他好像先说了一句没听过,后来又说这些工具都淘汰不用了。

真这么快就淘汰不用了么?还是遇上了一个无语的师弟。

3954 次点击
所在节点    问与答
22 条回复
liprais
2022-10-01 16:57:47 +08:00
他连班都没上过懂啥
billlee
2022-10-01 19:24:52 +08:00
Hadoop mapreduce 确实不用了,他能做的 spark 都能做并且做得更好
mythabc
2022-10-01 19:26:25 +08:00
HDFS\YARN 还在用,其他 hadoop 生态上的东西在式微。spark 还在用
Moeyua
2022-10-01 19:29:49 +08:00
?我去年毕设还是 Hadoop 和 spark ,过时可以,没听过就过分了吧。
haya
2022-10-01 19:41:49 +08:00
想知道他用的啥
levelworm
2022-10-01 20:16:57 +08:00
spark 用的还是很多啊。
leonme
2022-10-01 22:27:37 +08:00
@billlee 计算的数据超过内存上限呢?
berserk
2022-10-01 22:30:46 +08:00
@billlee 我说 hadoop 主要指的是分布式文件系统那些东西,那个生态。
jiezhi
2022-10-01 22:48:41 +08:00
Hadoop 的 HDFS 、YARN ,加上 Hive 、Spark 、Flink 这样,MapReduce 基本没人写了吧。
Maxwe11
2022-10-02 01:15:41 +08:00
没上过班儿的闲扯啥,国内计算机知名的系统包括中科院在内,这种学校体系最差的就是业务理解,总以为最新的就是 i 最好的,但企业是讲场景、讲成本的;

你说 hadoop 里写 mapreduce 确实现在不会有人做了,但是其他的咋就没人用了,不谦虚的说,我还没出来转型做健康前,在集团数据中心做核心数据,收单业务国内 top 级别年万亿级别,hadoop 里 hive 、spark 现在就算我不在了,业务那边现在也照样跑的飞起,论业务量效率精度要求及业务复杂度合规性成本要求等等要考虑的角度非常多,哪里有什么新的技术都一并解决了,你都没真接受过大数据业务的洗礼,就敢大言不惭说淘汰了?

flink 重在实时,spark 优在准实时高频小批,hive 大数据量离线非业务高峰时段显然是互补的好帮手,照这么说,关系型数据库这么老,sql 没法再古董了,是不是也都要淘汰,干嘛新出的工具反而都想方设法还要去兼容这种设计乃至类 sql 语法呢;

越是没真遭过罪的,说话越是缺少这一股谦卑。
shiny
2022-10-02 01:38:58 +08:00
我几年前买的 Hadoop 书的塑封膜还没拆,它就被淘汰了?
Takizawa
2022-10-02 09:12:58 +08:00
我在 6 年前接触的这方面的时候,mapreduce 就已经算过时了,那时候就用 spark 很多了。2022 年的博四的话,那跟我的学生生涯时间刚好是完全重合的,没听过可能确实是接触面窄了。
winglight2016
2022-10-02 09:32:14 +08:00
两年前 flink 刚出来的时候,就已经在说 flink 会取代 spark 了,现在看来的确有这个趋势,因为 spark 能做的 flink 基本都能做,反之不是。但是,我在生产环境中应用 flink 的时候发现,虽然被阿里收购了,但是 bug 是真的多,想也想不到的问题也很多,而且关联表层级一多,很容易导致反压爆炸,无法同步。所以,我现在正想办法看看能不能用 spark 去做一部分数据合并的处理。

btw ,有个问题请教大神:现在是不是都趋向使用 spark/flink sql 这种方式来处理数据了?毕竟企业里 DB 作为数据源更普遍一些。
yuhu96
2022-10-02 13:36:24 +08:00
我寻思在高校搞得那些 toy 数据集或者导师接的项目那点数据量也用不着花 spark hadoop 处理吧
yuhu96
2022-10-02 13:39:01 +08:00
我司很多老任务都是跑 hive ,orcale 。突出一个稳定。新任务常用 spark ,实时要求高的才用 flink 。数据一直是 hdfs 。
billlee
2022-10-02 14:23:09 +08:00
@berserk 生态上的东西,yarn 设计上和离线计算耦合太深,flink 估计是要全面转向 k8s 的。存储方面新出来的应用在转向 s3 云原生。以后留在 hadoop 生态上的应用估计就只有 spark sql 了, 从这个角度来看确实没有发展前景了
berserk
2022-10-03 20:34:10 +08:00
@yuhu96 对,就是高校里面接触不到。我后来找他问了。他说和别的东西弄混了,才说这个被淘汰了。哎,也说不出具体和什么弄混了。就是扯淡。
berserk
2022-10-03 20:35:52 +08:00
@billlee 要是我当时问他是 spark hadoop flank ,估计得到他的相应是一样的。他就是没听过,又以为我离开互联网很久了,其实才半年,就虎我这些都被淘汰了。
superchijinpeng
2022-10-09 10:21:05 +08:00
都用啊,你看社区活跃度就知道了
superchijinpeng
2022-10-09 10:21:28 +08:00
补充:Yarn 不用了,现在都在 K8S 上

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/884222

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX