源数据表是a , 目标数据表是b, 格式:parquet-snappy
insert sql: insert owerwrite table b select * from a
- 使用 impala 执行 insert sql , 再用 impala 对 b 表查询
- 使用 hive 执行 insert sql ,再用 impala invalidate metadata/ refresh table, 再用 impala 对 b 表查询
用 impala 查询这两种方式 生成的表数据,性能会差别非常大,impala insert的方式 比 hive insert性能要好几十倍??为什么会这样子,同一个表,一模一样的数据