国内搞大数据开发的小公司都有真本事吗

2023-12-14 11:43:49 +08:00
 KOMA1NIUJUNSHENG
昨天面试了一家搞大数据开发的小公司。主业务应该做的企查查那种搞企业信息搜集的。全程他最关注的点只有我之前项目的数据量,多少 T 的。用了什么工具。对于涉及到 es ,kafka 中技术性的问题倒不是很关注。基本都是我在讲,他就是机械式的问两句。最后来了句你没用过 Hadoop ,数据量没到几十个 T ,经验还是不够。我寻思技术积累必须要体现在这种方面吗,我承认数据量确实是一部分经验的体现,但是更为重要的不是实战中解决问题,优化项目的能力吗,如果只是一个大项目的边缘人能比一个小项目的领头人还厉害吗。是不是有点唯工具论了。
3241 次点击
所在节点    职场话题
19 条回复
laminux29
2023-12-14 11:57:51 +08:00
对方说的没毛病。

你的确没用过 Hadoop ,数据量的确没到十几个 T 。

每种工具都有自己的优缺点,既然你是这个行业的人,Hadoop 就算不是常用,也应该熟练掌握。

而且数据量达到一定程度,很多处理方式与管理方式会发生质变。
coolfamilyxun
2023-12-14 12:25:59 +08:00
没毛病啊,没数据量就是没经验。实打实
CaptainD
2023-12-14 12:52:59 +08:00
有没有真本事不一定,我们也是做大数据的小公司,就几个人,数据量很大,文本类有十几 T ,图片类上百 T ,但是我们技术很菜,领导都是学术出身,工程经验基本为 0 ,公司内的架构很糟糕,效率也很低

说实话我觉得小公司做大数据处境很尴尬,其实我们这种公司没有专业运维,用云服务尤其是 serverless 的服务是最好的选择,但是上云成本又太高,我们这种量级上云就很难下了,迁移成本太大,但是不用云就失去很多运维相关工具,都自建实在是没精力,每天业务上的工作都很多,没人能空出时间搞这些
KOMA1NIUJUNSHENG
2023-12-14 13:47:30 +08:00
@laminux29 类似 Hadoop ,clickhouse ,kettle 这种工具如果在工作中边做边学的话能快速上手吗。还是说必须要长久的经验。
SbloodyS
2023-12-14 13:57:57 +08:00
对方可能更多的是想要找一个有经验的熟手。

在大数据这个方向上,工具冗杂,技术更迭快,相同的工具在不同的数据体量下的玩法完全就是云泥之别。

举个例子,仅 Hadoop 在几十 TB 和几十 PB 下的管理方式、使用方式等就根本不是同一个东西。
me1onsoda
2023-12-14 14:11:49 +08:00
就是单纯想要熟手罢了,也不知道你学习能力如何,找熟手是最保险的策略
kidult
2023-12-14 14:26:28 +08:00
买的是你的经验,不是花钱找你来让你练级

很抱歉虽然话不好听,但就是现实
laminux29
2023-12-14 15:09:26 +08:00
@KOMA1NIUJUNSHENG

至少要搭建一个全功能集群环境,把管理员文档,与用户文档,全部实验一遍,把坑踩一遍,把优点与劣势自己总结一遍。
ddkk1112
2023-12-14 15:14:38 +08:00
面试前至少自己动手做一遍
就算上云,你也得考虑如何设计存储和计算架构降低成本,几十 TB 的话,设计的不好,一年得多花几十万
KOMA1NIUJUNSHENG
2023-12-14 15:34:23 +08:00
@laminux29 自己手上就一台云服务器,搞集群有点力不从心了。
laminux29
2023-12-14 17:22:28 +08:00
@KOMA1NIUJUNSHENG

大内存洋垃圾服务器 + PVE 虚拟化。
block0
2023-12-15 09:11:41 +08:00
面试官问的没毛病吧,几十 t ,跟上百 t 几千 t 的处理工程架构完全不一样了,小公司不可能给你学习的时间,是找来就能打仗的。而且小公司的容错能力就差,一个产品失败就可能挂了
beneo
2023-12-15 09:14:06 +08:00
招聘是一个双向选择过程,企业是找合适的,或者从一堆合适的里面矮子里面挑高个。也许这个岗位就是要重经验,轻业务。你可以多表达一下不反对加班,年轻的时候多拼一拼这类的想法,这些因素小公司都喜欢
noparking188
2023-12-16 13:37:02 +08:00
这种专门做数据的公司我呆过两家,都是垂直领域行业 Top ,对方应该也是个半吊子,内部数据架构还在摸索。
比不了电商、社交平台那种面向 C 端每天都有海量数据产生,单表数据过 T 不得了,各种冗余全加一起能达到 PB 级,数据维度多、价值高、关系杂、时效性高。
看完 DDIA 这本书,然后各找一个 OLTP/OLAP 数据库,还有 MPP 引擎学习一下原理和底层设计,这样大概肚子里有点货能吹牛皮了。
都是从💩开始糊起来的,想一步到位找到近似最优架构以后不换,很难办啊,先把💩糊了产品撑起来,以后再慢慢搞。
个人的话就多多关注下 Data Infra 领域的技术动向了,以前有个很不错的 DBWeekly 可惜早不更新了,那些云厂商的各种解决方案挺值得参考的。
qweruiop
2023-12-17 16:39:59 +08:00
玩几 t ,几百 t ,pb ,几十 pb ,都是不同的世界和不同的薪资了。
KOMA1NIUJUNSHENG
2023-12-18 09:42:48 +08:00
@qweruiop 问题是他们这个大数据开发岗位挂的薪资是 10k-14k 。
eagleex1
2023-12-18 11:53:32 +08:00
很多人很纠结的一个点,就是面试不过=自己的价值被低估了。
其实招聘就是个双向选择,有的时候缘分不到就看不对眼,也正常。
maryshaw
2023-12-19 14:17:17 +08:00
@KOMA1NIUJUNSHENG 老哥 岗位是数据分析吗
KOMA1NIUJUNSHENG
2023-12-19 15:42:53 +08:00
@maryshaw 岗位是大数据开发,我是 java

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000299

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX