V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
oahebky
V2EX  ›  程序员

[开个帖子] 聊聊「数据工程师」的「世界」!求“灌水”。。。

  •  
  •   oahebky · 2020-09-24 12:17:05 +08:00 · 1241 次点击
    这是一个创建于 1550 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不同行业的工程师和不同行业的工程师平时干的工作不同,使用的工具链不同,需要掌握的专业知识也不同。

    比如嵌入式( EE )的软件工程师,根据专业方向不同,可能就要搞网络协议(低于 HTTP 、STMP 这类应用层)、SPI & IIC & CAN 等协议和驱动、搞示波器、搞 LINUX 内核、等等等;

    比如 web 后端开发的软件工程师,可能就从 HTTP 协议、到 MVC 框架、到数据库、到一些算法、高并发等等等;

    当然还有其它各种的工程师...


    上面是我开这个帖子的立意点;

    因为自己的工作中的很大一部分会和「数据」打交道;但是算是这一行的入门菜鸟;

    所以想听听大佬们说说“数据工程师的世界”;

    或者用通俗的自嘲话语:吐槽一下 ETL boy 的生活。(无冒犯之意!!!)


    注:(可能不是重点的一个点)我用的编程语言是 Python


    大佬们有什么想吐槽,都可以来“灌灌”!

    第 1 条附言  ·  2020-09-24 13:25:15 +08:00

    对了,想起来发这个贴子,是因为要做一个「时间」有关的功能;

    然后因为时间的表达方式太多了:

    • 中文“大写”的方法
    • 英文的时间
    • 时间格式(yyyy-mm-dd or mm-dd-yyyy etc...)
    • 数据完整性:yyyy, yyyy-mm, yyyy-mm-dd, etc...

    所以怎么将这些很不同的表达方式都通过实现的一个“api” 转为(某个) Python 的时间类型就有些困惑;

    况且,Python 的时间类型就有好多种:datetime.datetime, time.time, numpy.datetime, pandas.Timestamp, etc...

    要转换成哪种作为数据分析时候的 pandas 列呢?又哪种做 SQL 持久化呢?


    我想,做一名数据工程师,最基础的就是要和这些 int、float、string、timestamp、datetime、etc... 打交道吧?

    5 条回复    2020-09-25 16:34:12 +08:00
    jimmyismagic
        1
    jimmyismagic  
       2020-09-24 13:46:46 +08:00
    现在真没有几个数据工程师了,尤其是 ETL 的, 要么去做数据分析师,要么去搞深度学习
    oahebky
        2
    oahebky  
    OP
       2020-09-24 13:55:19 +08:00 via Android
    @jimmyismagic

    其实我不太清楚数据分析师和数据工程师的区别?
    Aksura
        3
    Aksura  
       2020-09-24 19:48:29 +08:00
    不是大佬,也来唠唠。既然是“ETL boy”那就是和数仓打交道了?那么入库的时候,时间字段应该是有统一地转换为一种格式存储的吧?存为 ISO8601,读取的时候再按客户端喜好转换不就行了?

    数据工程师一直没有个准确定义吧?看各种 JD,有的公司指的是数据分析、BI 那一类,有的是指大数据开发、数据仓库。
    oahebky
        4
    oahebky  
    OP
       2020-09-24 21:36:53 +08:00
    @Aksura

    比较好奇国内的“数据工程师”现状是怎么样的?发展很多年了?还是属于起步?还是“半死不活”?还是处于快速扩大队伍?。。。???


    以前都是什么 APP ( Android,IOS )开发的工程师、web 后端工程、LINUX C 开发的工程师、前端工程师、算法工程师 等等等,在今年换工作之前,真的没了解到还有数据工程师的“市场”。
    Aksura
        5
    Aksura  
       2020-09-25 16:34:12 +08:00
    @oahebky “数据工程师”这个说法本来就是伴随 AI 潮起来的吧?基本盘还是 ETL(包括大数据)、数据库、数据分析、数据这些。看招聘市场上的职位名是这样。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2870 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 14:27 · PVG 22:27 · LAX 06:27 · JFK 09:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.