[2021] 大家用什么大数据技术栈?

2021-09-28 09:58:24 +08:00
 zealinux

公司这方面一片空白,我也从没搞过。 但公司要准备这方面的预研。

是拿来用,而不是搞二次开发。 最好是直接拿开源的组装就行。

大家怎么选型,有什么推荐的?


现在只听说了 Hue,Hive,正在学习。 (之前只是用 Python Pandas 等数据分析)

3557 次点击
所在节点    程序员
10 条回复
zhengsidao
2021-09-28 10:13:24 +08:00
有自己的集群么,还是用的云服务?
数据量是多大的呢,做大数据的场景是什么,是需求推动还是纯粹公司想做,达成什么方向 or 目的?
大数据这一块的内容太多了,抛开业务场景去谈实践基本上扯淡。相关的组件学习、运维和使用成本都很高,如果没有经验也没有数据场景需求推动基本上干不了啥。
推荐一下阿里巴巴大数据的书籍,<大数据之路> 看完心里有个大概,再根据场景选型对应的组件来调研。

另外盲猜你的公司很小...
xujia1998
2021-09-28 11:34:27 +08:00
Flink ClickHouse
libook
2021-09-28 12:26:21 +08:00
招个大数据架构师来搞,都是组合各种开源组件,但跟业务相关的东西还是得自己写的。
dayeye2006199
2021-09-28 15:12:46 +08:00
我默认楼主需要的是类似数据仓库之流的东西,这方面运维成本很高,小公司自己做没经验的话会很痛苦。建议直接买云厂商的解决方案。例如阿里云的 maxcompute 。比较现代的解决方案一般是存算分离,存储一般用普通的 oss 。

在这个基本的仓库服务上,建议再酌情选择 数据治理,数据管道等组件。这方面可以开源和购买相结合。
presto
2021-09-28 15:17:04 +08:00
Flink 、Presto Kudu
yingsunwl
2021-09-28 17:19:29 +08:00
HDFS 、Hive 、Spark 、Flink 、Presto 、Kafka 、ClickHouse 、Doris 、Kylin
zengqz
2021-09-28 18:35:13 +08:00
pulsar,很值得使用
levelworm
2021-09-29 08:04:30 +08:00
Kafka 数据流经过 Spark 计算进 Vertica, 然后 Airflow 定时做 Transform 进数仓。
zhygkx
2021-09-29 09:41:32 +08:00
大公司基本不用 Hive 了,Hive Metastore 组件还在用。
离线计算:Spark
实时计算:Flink
即席查询:Presto/Trino
存储:HDFS/OSS
michaelzhangcn
2021-09-29 17:09:41 +08:00
你要問問公司想要解決什麼問題

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/804800

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX