国内搞大数据开发的小公司都有真本事吗

昨天面试了一家搞大数据开发的小公司。主业务应该做的企查查那种搞企业信息搜集的。全程他最关注的点只有我之前项目的数据量，多少 T 的。用了什么工具。对于涉及到 es ，kafka 中技术性的问题倒不是很关注。基本都是我在讲，他就是机械式的问两句。最后来了句你没用过 Hadoop ，数据量没到几十个 T ，经验还是不够。我寻思技术积累必须要体现在这种方面吗，我承认数据量确实是一部分经验的体现，但是更为重要的不是实战中解决问题，优化项目的能力吗，如果只是一个大项目的边缘人能比一个小项目的领头人还厉害吗。是不是有点唯工具论了。

laminux29

2023-12-14 11:57:51 +08:00

对方说的没毛病。

你的确没用过 Hadoop ，数据量的确没到十几个 T 。

每种工具都有自己的优缺点，既然你是这个行业的人，Hadoop 就算不是常用，也应该熟练掌握。

而且数据量达到一定程度，很多处理方式与管理方式会发生质变。

coolfamilyxun

2023-12-14 12:25:59 +08:00

没毛病啊，没数据量就是没经验。实打实

CaptainD

2023-12-14 12:52:59 +08:00

有没有真本事不一定，我们也是做大数据的小公司，就几个人，数据量很大，文本类有十几 T ，图片类上百 T ，但是我们技术很菜，领导都是学术出身，工程经验基本为 0 ，公司内的架构很糟糕，效率也很低

说实话我觉得小公司做大数据处境很尴尬，其实我们这种公司没有专业运维，用云服务尤其是 serverless 的服务是最好的选择，但是上云成本又太高，我们这种量级上云就很难下了，迁移成本太大，但是不用云就失去很多运维相关工具，都自建实在是没精力，每天业务上的工作都很多，没人能空出时间搞这些

KOMA1NIUJUNSHENG

2023-12-14 13:47:30 +08:00

@laminux29 类似 Hadoop ，clickhouse ，kettle 这种工具如果在工作中边做边学的话能快速上手吗。还是说必须要长久的经验。

SbloodyS

2023-12-14 13:57:57 +08:00

对方可能更多的是想要找一个有经验的熟手。

在大数据这个方向上，工具冗杂，技术更迭快，相同的工具在不同的数据体量下的玩法完全就是云泥之别。

举个例子，仅 Hadoop 在几十 TB 和几十 PB 下的管理方式、使用方式等就根本不是同一个东西。

me1onsoda

2023-12-14 14:11:49 +08:00

就是单纯想要熟手罢了，也不知道你学习能力如何，找熟手是最保险的策略

kidult

2023-12-14 14:26:28 +08:00

买的是你的经验，不是花钱找你来让你练级

很抱歉虽然话不好听，但就是现实

laminux29

2023-12-14 15:09:26 +08:00

@KOMA1NIUJUNSHENG

至少要搭建一个全功能集群环境，把管理员文档，与用户文档，全部实验一遍，把坑踩一遍，把优点与劣势自己总结一遍。

ddkk1112

2023-12-14 15:14:38 +08:00

面试前至少自己动手做一遍
就算上云，你也得考虑如何设计存储和计算架构降低成本，几十 TB 的话，设计的不好，一年得多花几十万

KOMA1NIUJUNSHENG

2023-12-14 15:34:23 +08:00

@laminux29 自己手上就一台云服务器，搞集群有点力不从心了。

laminux29

2023-12-14 17:22:28 +08:00

@KOMA1NIUJUNSHENG

大内存洋垃圾服务器 + PVE 虚拟化。

block0

2023-12-15 09:11:41 +08:00

面试官问的没毛病吧，几十 t ，跟上百 t 几千 t 的处理工程架构完全不一样了，小公司不可能给你学习的时间，是找来就能打仗的。而且小公司的容错能力就差，一个产品失败就可能挂了

beneo

2023-12-15 09:14:06 +08:00

招聘是一个双向选择过程，企业是找合适的，或者从一堆合适的里面矮子里面挑高个。也许这个岗位就是要重经验，轻业务。你可以多表达一下不反对加班，年轻的时候多拼一拼这类的想法，这些因素小公司都喜欢

noparking188

2023-12-16 13:37:02 +08:00

这种专门做数据的公司我呆过两家，都是垂直领域行业 Top ，对方应该也是个半吊子，内部数据架构还在摸索。
比不了电商、社交平台那种面向 C 端每天都有海量数据产生，单表数据过 T 不得了，各种冗余全加一起能达到 PB 级，数据维度多、价值高、关系杂、时效性高。
看完 DDIA 这本书，然后各找一个 OLTP/OLAP 数据库，还有 MPP 引擎学习一下原理和底层设计，这样大概肚子里有点货能吹牛皮了。
都是从💩开始糊起来的，想一步到位找到近似最优架构以后不换，很难办啊，先把💩糊了产品撑起来，以后再慢慢搞。
个人的话就多多关注下 Data Infra 领域的技术动向了，以前有个很不错的 DBWeekly 可惜早不更新了，那些云厂商的各种解决方案挺值得参考的。

qweruiop

2023-12-17 16:39:59 +08:00

玩几 t ，几百 t ，pb ，几十 pb ，都是不同的世界和不同的薪资了。

KOMA1NIUJUNSHENG

2023-12-18 09:42:48 +08:00

@qweruiop 问题是他们这个大数据开发岗位挂的薪资是 10k-14k 。

eagleex1

2023-12-18 11:53:32 +08:00

很多人很纠结的一个点，就是面试不过=自己的价值被低估了。
其实招聘就是个双向选择，有的时候缘分不到就看不对眼，也正常。

maryshaw

2023-12-19 14:17:17 +08:00

@KOMA1NIUJUNSHENG 老哥岗位是数据分析吗

KOMA1NIUJUNSHENG

2023-12-19 15:42:53 +08:00

@maryshaw 岗位是大数据开发，我是 java

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000299

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.