大数据量 join 操作

2019-01-09 19:15:31 +08:00
 Asan

a 和 b 通过字段 C 是有关联的,现在要把 a left join b,把 a 中的某些字段的值从 b 中补充过来。目前的做法是两个文件的数据分别建表入 MySQL,然后 join 操作,但是性能吃紧。想问下懂大数据的 v 友,使用大数据技术有没有更好的解决方案。

目前自己调研是使用 Hbase Hive SparkSQL 去搞,但是自己之前没有搞过大数据不知道这个调研结果是否可以

4795 次点击
所在节点    程序员
25 条回复
loading
2019-01-09 20:42:40 +08:00
先试下分页,每次都全量,io 吧。
zeraba
2019-01-09 20:44:14 +08:00
C 字段两个表都加好索引 类型和表的字符集保持一致,这点数据不算啥大数据
31p7410
2019-01-09 23:09:53 +08:00
这个数据量太小了,hive 就能搞定
crazypig14
2019-01-10 09:43:42 +08:00
这点数据量 mysql 确定不行? explain 过 sql 了么?
SmiteChow
2019-01-10 10:57:45 +08:00
数据量不大 索引建好了 不费事

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/525469

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX