Bilibili 上面那些数据可视化的视频,数据都是来自哪里?

2018-12-14 19:34:22 +08:00
 changwei

例如这个 up 主 https://space.bilibili.com/5760446

我看了一下他视频里面的数据最早一直到 2010 年,不知道这些数据都是哪里来的啊?如果真是 up 主自己爬虫抓了八年,那也真是厉害啊!!!

7408 次点击
所在节点    问与答
20 条回复
liyvhg
2018-12-14 19:36:46 +08:00
战略性 mark。
可能是来自于一些统计机构的公开数据吧?
xzc19970719
2018-12-14 19:39:15 +08:00
自己爬的??根据日期分嘛
Rokee
2018-12-14 21:35:39 +08:00
azh7138m
2018-12-14 21:38:57 +08:00
@Rokee 读题啊
是 数据 哪里 来的
fuchar
2018-12-14 21:39:49 +08:00
mark 一下
orsweet
2018-12-14 21:43:24 +08:00
插眼
e9e499d78f
2018-12-14 21:46:31 +08:00
open data ?
gabon
2018-12-14 21:47:15 +08:00
mock ?
orangeade
2018-12-14 21:58:18 +08:00
公开数据集吧,谷歌今年还出了个数据集搜索引擎来着
whwq2012
2018-12-14 22:00:39 +08:00
我也想问,一想到数据来源可能很水立马觉得这些事情很 low。。
我猜是百度 /谷歌的搜索指数?
yingfengi
2018-12-14 22:09:45 +08:00
有时候可能是编的,或者,百度一下。
大部分所谓的统计,水分很大的。
enjoyCoding
2018-12-15 01:45:19 +08:00
Math.radom+lastRadom
dachuige
2018-12-15 01:54:28 +08:00
这个问题困扰了好久
Torpedo
2018-12-15 02:06:27 +08:00
官方告诉的吧?
molvqingtai
2018-12-15 02:10:38 +08:00
排除法,肯定不是八年抓的
locoz
2018-12-15 05:40:19 +08:00
首先从八年前开始爬到现在的概率非常低,这个 up 主的账号是 2014 年注册的,八年前他可能还不知道 b 站,或者并不会觉得这个网站的数据能有什么意义。
然后根据他发的视频内容来看,av26727147 这个视频里在 2009 年的时候就出现了广告和时尚区的记录,而这两个区在我的印象中是最近一两年才出来的;还有一点就是所有视频的开头都是有一部分不为 0。
推测出可能的情况:
1、根据发布时间筛选那个时间以前的视频,并计算需要的值的总和。(但是根据我服务器上 2017 年 8 月 17 日的全站数据来看,按这种方式算出来的值与视频中的对不上)
2、数据来源于第三方监控平台。(但是起始时间太早了,那时候一是可能没有这种监控平台,二是当时 b 站只是小众圈子,就算有监控平台也不太可能收录)
3、b 站官方记录的数据,py 交易得来。(概率较低,那么早的时候 b 站会专门存这种每天的记录?)
4、爬网页时光机、快照之类的东西,得到历史网页并解析出当时的实际值。(覆盖面不广、没有完整的数据,视频里看着又挺多,也不太可能)
5、用评论来做估值,根据评论时间和数量判断当时的值是多少,并生成假数据。(有点可能性,但存在评论很少播放量 /收藏量很高的视频,这么弄的话误差可能比较大)
6、以部分时间节点为关键点,并根据现在的数据来生成假数据。
所以很可能是假数据
locoz
2018-12-15 05:47:08 +08:00
@locoz #16 补充第一点的对比,可以看到用 [2017 年 8 月 17 号的全站数据] 统计出来的 [发布时间小于等于 2009 年 10 月 1 日的视频] 的收藏数都要比视频中的高出很多。

Pythondr
2018-12-15 10:48:52 +08:00
看个趋势,看个热闹罢了
changwei
2018-12-15 21:23:09 +08:00
@whwq2012
@orangeade
@locoz

百度指数目前最早可以查到 2011 年的数据,我也猜测是来自这个。但是他有一些数据,例如视频收藏,投币数量这种数据最早一直到 2012 年,这种数据,还要追溯到这么久以前,只有 b 站内部的人,而且还要是较高级别的运营人员才能弄到时间范围这么宽的数据吧。我就很好奇这些数据他是怎么来的,看他的账号还有 b 站官方认证,难道 b 站默默承认了他数据的真实性嘛?

另外,如果真是假数据的话,这些 up 主就有点哗众取宠了吧,弄虚作假搞些大新闻来赚人气博眼球,我觉得这样不太好。
locoz
2018-12-17 10:47:01 +08:00
@changwei #19 百度指数那部分没问题,正常情况就能爬到,就是 B 站内的那部分数据有点怪而已。
然后那个认证内容是“ bilibili 知名科普 UP 主”,并不能说明数据的真实性。而且审核人员的级别也不高,也无法得知数据是不是真实的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/517667

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX