假设一个 Hive 有十列: primary_key, user_id, column1, column2, ..., column8
每天会产出一个分区,假设今天和昨天产出的分区分别是 partion1 和 partion2
问:每个分区的数据按照 user_id 进行聚合( group by ), 如何找到 partion1 和 partion2 有 diff 的那些 user_id?
diff 的定义:聚合后的行数不同,或者任何其他 column 的数据有 diff
举个例子,这个 Hive 的数据,是用户的订单记录,包括 用户 ID 、用户名称、快递公司、快递单号等数据。那么,针对每个用户,今天的分区都可能有新的订单记录,或者用户名称等 column 发生了变化。
最终需要的 user_id 就是:
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.