mysql 亿级数据,数据筛选和导入导出

1 天前
 woduzibue
表中有个亿级别的数据,需要将表中某个字段做分析聚合插入到另一张新的表中,
请教一下各位大佬,
1. 这种操作通过哪种方式做会相对来说是最佳实践
2. 或者借用哪些工具会好一点
我当前想到的是做个批处理批量更新到另一张表中,
想问问论坛大佬们都还有哪些好点的做法,大厂里面都有哪些最佳实践
801 次点击
所在节点    MySQL
4 条回复
VampireDemon
1 天前
nifi +doris
woduzibue
1 天前
@VampireDemon 感谢大佬,这是要自己再单独部署这两个工具是吧
heqingpan
1 天前
按 id>上次已处理的 id order by id limit 1000 ,从前到后批次查询、处理、批次写入(批次大小可以设置 1000 左右)。

如果有必要,单个批次可以加事务。
每个批次间可以加点 sleep 控制处理的 tps 。
每处理 10 万条记录写个日志,以便确认运行状态,成功、失败、异常都加上对应日志。

数据库性能够的话,一天处理个两三亿数据没什么问题。

如果可能分多次跑,记得把已处理的 id 记在某人地方,让下次运行时可以指定对应的值。
VampireDemon
18 小时 2 分钟前
@woduzibue 对,很方便简单上手快,拖拉拽就好了。生态强大。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1099915

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX