请教 spark sql 下大表 join 的优化问题

2022-03-02 15:26:07 +08:00
 disk
左表和右表均有含一个字符串列 name ,为方便区分称为 NL 和 NR ,目的是将左表中的每一行连接右表中的特定行,即右表中的 NR 作为子串在 NL 中位置最靠前的那一行。左表有数千万行,右表约小几万行。
尝试过:
1. 先 crossjoin 再分组聚合,问题是表太大了,内存和速度均不堪
2. join on 条件中使用子查询,问题是 spark 不支持在 join 条件中使用子查询
各位大佬有什么好办法吗?
715 次点击
所在节点    问与答
2 条回复
levelworm
2022-03-03 02:38:55 +08:00
分段 join 然后合起来不知道行不行,每段可能足够快?
disk
2022-03-03 18:58:27 +08:00
@levelworm 左右表裁剪后,左表分表,右表 broadcast join ,现在速度能接受了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/837453

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX