请问为什么两次统计的结果会不一样呢

2018-08-24 20:33:21 +08:00
 DongDongXie
JOIN_SHOW_CLK = join SHOW by (query,wid,csid) LEFT,CLK by (query,wid,csid);

tmp = foreach JOIN_SHOW_CLK GENERATE (CLK::csid is null? 0:1) as cs;
Grpd = group tmp by cs;
Smmd = foreach Grpd generate group, COUNT(tmp) as number,1,1,1;
Srtd = order Smmd by number desc;
dump Srtd;

SHOW_CLK = foreach JOIN_SHOW_CLK generate
                SHOW::openid..SHOW::t2_csid,
                (CLK::csid is null? 0:1) as is_clk;

Grpd = group SHOW_CLK by is_clk;
Smmd = foreach Grpd generate group, COUNT(SHOW_CLK) as number,1,1,1;
Srtd = order Smmd by number desc;
dump Srtd;

RT,我是想分组统计 CLK::csid 的数量,讲道理两个的输出结果应该是一样的啊,可是输出却不一样,请问是为什么呢?

2230 次点击
所在节点    Linux
3 条回复
AllOfMe
2018-08-24 22:04:14 +08:00
no data, no result , who 可以 answer 这个问题?
DongDongXie
2018-08-24 22:52:15 +08:00
@AllOfMe 我的意思是单从语法上分析,我感觉是不应该出现前后两次统计结果不一致的情况,可他还是发生了,所以很不解
cm5168
2018-08-25 06:55:01 +08:00
cs 和 is_clk 不一样,group 出来的数据也不一样吧,第一个是根据一个数据 group,第二个是根据三个数据 group

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/483003

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX