请问一下,数据处理需求频繁变更时,如何提高数据处理的效率?

230 天前
 Int100

请问一下,数据处理需求频繁变更时,各位是怎么做的?

公司会产生很多 json 格式的数据,任务是需要对这些 json 数据进行数据处理,提取/重组其中的一些 key: value ,按照甲方的要求生成特定的数据集(也是 json 格式)。

之前一直是编写 python 脚本直接处理数据,但是费时费力,甲方有时候一些小要求,代码就需要改动很多。有没有什么办法可以更加标准化/便捷的做这件事?比如能否利用某些数据库去完成这个任务?

非常感谢🙏

1599 次点击
所在节点    程序员
11 条回复
Livid
230 天前
导入 MongoDB 或者 ElasticSearch 然后试试用查询?
yuanmomo
230 天前
这种你找找身边做大叔的,或者做数仓的,他们天天就干这个。

大数据一般分成很多段来处理数据。数据采集,清洗,规整,然后导出。我不是专业做大数据,在大数据团队待了一年,所以就见过一些。

把数据处理,分成一段一段,每一段只完成一件事情,然后最终把数据导入到一些支持查询的数据库里面,然后再用 SQL 之类的语言去查询。
ke1e
230 天前
数仓正解,如果数据量不大或者对时效性和 qps 不敏感可以看看 MongoDB
netnr
230 天前
用 nodejs

每种处理单元为一个类或方法,对应一个 js 文件
根据配置动态加载执行 js 文件

后续有新的处理方式,拷贝一份 js 文件微调,再更新一下配置参数
vivisidea
230 天前
耗时主要在哪呢? json 解析可以试试 jsonpath 这个工具,我觉得还挺好用,https://github.com/json-path/JsonPath python 应该也有对应的实现
yinmin
230 天前
用 ai 试试,把原来的代码和新的需求都发给 ai ,让 ai 修改代码。你可以试试 gpt4 、claude3 opus 、mistral large 、gemini 1.5 、deepseek code 这几个模型。
yjhatfdu2
230 天前
使用 postgresql 的 jsonb ,可以使用 copy 快速导入,可以使用 jsonpath 快速查询,可以使用各种 json 相关函数和 json 聚合函数快速编辑和处理,而这些都只需要 SQL
Joker520
230 天前
可以试下用 MongoDB 来存
noahlias
230 天前
不怎么复杂的 我觉得 jq 就可以完成你说的功能
https://github.com/jqlang/jq
写个 shell 脚本批处理下就搞定了 反正你是从 json 到 json
Int100
230 天前
@yinmin #6
谢谢建议!有尝试过,可以减轻一部分工作量,但是数据之间的关联太复杂,最后主体还是要靠自己写。😄
wxf666
230 天前
@Int100 #10 要不,你模拟几个场景出来看看?比如:

10GB 的 A.json (格式是 [{"a": xxx, "b": yyy, ...}, ...],约一亿条),
100GB 的 B.json (格式是 [{"c": xxx, "d": yyy, ...}, ...],约十亿条),

需求一:A 里的 a, b 字段去 B 里的 c, d 查,保留结果是 xxx 的,再分组取前一万,再分季度汇总,。。。
需求二:。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1038936

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX