昨天面试了一家搞大数据开发的小公司。主业务应该做的企查查那种搞企业信息搜集的。全程他最关注的点只有我之前项目的数据量,多少 T 的。用了什么工具。对于涉及到 es ,kafka 中技术性的问题倒不是很关注。基本都是我在讲,他就是机械式的问两句。最后来了句你没用过 Hadoop ,数据量没到几十个 T ,经验还是不够。我寻思技术积累必须要体现在这种方面吗,我承认数据量确实是一部分经验的体现,但是更为重要的不是实战中解决问题,优化项目的能力吗,如果只是一个大项目的边缘人能比一个小项目的领头人还厉害吗。是不是有点唯工具论了。
这种专门做数据的公司我呆过两家,都是垂直领域行业 Top ,对方应该也是个半吊子,内部数据架构还在摸索。 比不了电商、社交平台那种面向 C 端每天都有海量数据产生,单表数据过 T 不得了,各种冗余全加一起能达到 PB 级,数据维度多、价值高、关系杂、时效性高。 看完 DDIA 这本书,然后各找一个 OLTP/OLAP 数据库,还有 MPP 引擎学习一下原理和底层设计,这样大概肚子里有点货能吹牛皮了。 都是从💩开始糊起来的,想一步到位找到近似最优架构以后不换,很难办啊,先把💩糊了产品撑起来,以后再慢慢搞。 个人的话就多多关注下 Data Infra 领域的技术动向了,以前有个很不错的 DBWeekly 可惜早不更新了,那些云厂商的各种解决方案挺值得参考的。