请问为什么两次 pig 的统计结果会不一样

2018-08-24 17:21:04 +08:00
 DongDongXie
JOIN_SHOW_CLK = join SHOW by (query,wid,csid) LEFT,CLK by (query,wid,csid);

tmp = foreach JOIN_SHOW_CLK GENERATE (CLK::csid is null? 0:1) as cs;
Grpd = group tmp by cs;
Smmd = foreach Grpd generate group, COUNT(tmp) as number,1,1,1;
Srtd = order Smmd by number desc;
dump Srtd;

SHOW_CLK = foreach JOIN_SHOW_CLK generate
                SHOW::openid..SHOW::t2_csid,
                (CLK::csid is null? 0:1) as is_clk;

Grpd = group SHOW_CLK by is_clk;
Smmd = foreach Grpd generate group, COUNT(SHOW_CLK) as number,1,1,1;
Srtd = order Smmd by number desc;
dump Srtd;

RT,我是想分组统计 CLK::csid 的数量,讲道理两个的输出结果应该是一样的啊,可是输出却不一样,请问是为什么呢?

772 次点击
所在节点    数据库
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/482951

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX