数据方向大佬请留步,有一事请教~

2021-03-21 20:09:38 +08:00
 daxin945

基本情况: 1. 数据量 TB 级 数据基于 HTTP 协议、KAFKA 、日志文件等方式进行传输(暂不考虑直接从数据库等存储中抽取数据的情况) 2. 数据格式可能是 Json 、syslog 、xml 、有固定格式的文本日志如 Nginx 日志 3. 编程语言 Python(能力所限,大佬勿喷,可拓展), 中间件是开源就行 需求: 1. 可以通过编写配置文件的方式,对异构数据进行采集及格式的统一化。 2. 对上一条的补充说明,实际工作中需要对接的设备会比较多,并会在未来的时间里对接很多的不同种类的设备。所以现在希望写一套能减轻这部分工作成本的代码 /系统。

跪求思路,请大佬们不吝赐教 祝身体健康,工作顺利!

1310 次点击
所在节点    问与答
4 条回复
ursash
2021-03-21 21:26:18 +08:00
datax,flinkx,nifi ?
zagfai
2021-03-22 00:13:20 +08:00
TB 算啥量级。。。随便来个 txt 都能完事
whenov
2021-03-22 00:22:25 +08:00
对于配置文件的规范,以及统一化的格式,要记得做版本控制
c6h6benzene
2021-03-22 08:56:25 +08:00
听起来就是个 ETL 的过程……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/763731

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX