二千万条数据的一些分析

2013-11-01 01:17:44 +08:00
 august
首先感谢某酒店提供的数据。

页面在这里:

http://august.hk/2000w.html

没事拿来练习一下 sql, 有些校准,有些忽略,大致上准确。

欢迎提供更多统计意见。
6269 次点击
所在节点    分享创造
34 条回复
senghoo
2013-11-01 01:26:35 +08:00
Goodjob
liuhk388
2013-11-01 01:31:33 +08:00
地区分布那张亮了
问一下图是用什么做的?
drush
2013-11-01 01:40:43 +08:00
drush
2013-11-01 01:42:10 +08:00
...點錯,不是圖,用Google chart 做的
liuxurong
2013-11-01 01:47:44 +08:00
看不到 图??
cctvsmg
2013-11-01 03:51:56 +08:00
yelite
2013-11-01 05:30:00 +08:00
我做了个生日的统计发现9月和10月出生的特别多,有9.9%和9.5%, 相对来讲3月到6月出身就比较少,最低的好像是7.8%
Mihuwa
2013-11-01 08:13:50 +08:00
很有意思的表
DearMark
2013-11-01 08:17:09 +08:00
喜闻乐见系列
august
2013-11-01 08:20:05 +08:00
@cctvsmg 我没想到统计入住时间,另外我发现82年的人是最多的,但如果地址是“香港” 的,所有生日都好像是默认为“19821228”,不知你有没有去除。
august
2013-11-01 08:21:41 +08:00
@yelite 生日这个我觉得要跟身份证号码来校验而身份证又分15位同18位,而且有上面的情况出现,略复杂,不会用sql来做,所以没做过统计。
ChiangDi
2013-11-01 09:06:22 +08:00
越年輕,男女差別越小;經濟越發達地區人越多;排名第一的居然是張偉
kurtrossel
2013-11-01 09:17:06 +08:00
看女性年龄分布,三十如狼果然不是盖的
yelite
2013-11-01 09:38:51 +08:00
@august 我没有看birthday字段,只看非重复18位身份证的,然后从身份证里提取生日,数量大概有1800w吧。

待我学一下数据展示的js,也像你这样做个网页出来
detailyang
2013-11-01 10:12:33 +08:00
数据库地址多少。从网上下的解开来全错的 = =。也想练练手
imganquan
2013-11-01 10:16:22 +08:00
贊,做得非常棒。
felix021
2013-11-01 10:27:29 +08:00
我前两天用它来跑压测了。。
august
2013-11-01 10:36:04 +08:00
@detailyang 就在百度網盤一搜一大把
cctvsmg
2013-11-01 11:04:58 +08:00
@august 也只过滤了一下一些明显有错误的
csx163
2013-11-01 13:48:50 +08:00
@august
@cctvsmg

怎么做的啊,手写sql么,除了使用excel都很麻烦的样子

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/87637

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX