豆瓣网友装逼吗(电影篇)? —— 一个数据分析的视角

2016-12-29 17:58:34 +08:00
 cqcn1991

说明:

0. 问题的介绍

起因

看了一部评分很高的电影,彗星来的那一夜,发现并不好看, 实在对不起那么高的评分。于是翻了一下 IMDB 的评分,发现差距还是蛮大的, 上图为豆瓣评分,下图为 IMDB 评分.

其他的电影也有这个问题

白日梦想家, 也是国内的评分很高,但是国外的评论差距就挺大的

你可以看到 IMDB 和豆瓣的评分差别很大,短评差距也很大 这两部电影的评分是 8.3, 而其他同样评分的电影,我就觉得挺好的,像下面这几部 再比如超人钢铁之躯, 就是我很喜欢,但是分数很低,以前周星驰的功夫也是如此,不过近几年有回升

问题

再想到以前豆瓣出现过不存在的电影高分评分的现象,于是就想问 —— 豆瓣电影的评分真的"对"吗?会不会有人为了装逼特意打高分 /低分?

于是, 就从 IMDB 和豆瓣电影入手,比较一下两者的差异

1. 数据概况

Movieinsider 找到了 2010-2015 国外上映的电影的榜单做了抓取,拿到豆瓣和 IMDB 的评分, 总共 822 部

IMDB/豆瓣 /Metacritic 分布

豆瓣和 IMDB 的分布基本相似,而且有高分有低分,大致呈现正态分布,说明拿到的数据量基本是够的

顺便拿到了 Metacrtic 的评分,他们的评分经过了人工的调整,维持均值在 5 左右, 所以和 IMDB 和豆瓣评分差别很大

基本的电影列表概况展示

具体见notebook

需要注意的是,实际会有一些豆瓣评分为 0 的电影

这是因为一些电影国内没什么人看过,评分很少, 所以做了剔除,具体分析见notebook

接下来,我们直接选取豆瓣和 IMDB 评分人数同时大于 2000 的,这个评分就会比较客观, 不会受人数太少评分可能不客观的影响

2. 散点图比较

2.1 散点图

散点图可以很方便的做出两者的比较,横坐标是豆瓣评分,纵坐标是 IMDB 评分。这个图表是交互式的,大家可以自己看看,地址

这里我们做了一条 IMDB - 豆瓣的回归线,并且画出了 1:1 的线。可以发现

两者斜率不同,而且分数越高,差别越大。个人推测原因,可能是打分制的缘故

IMDB: 10 星制。没有人会打 10 星

豆瓣: 5 星制。 4 星以上都会打 5 星

豆瓣的打分制概念简单,不需要太精确,体验更好

2.2 基本概况观察

根据豆瓣和 IMDB 的电影评分的差距,可以做绝对分差、相对分差排名的排名, 具体见notebook

3. 进一步的观察

3.1 类别会有影响吗?

仔细看排名,发现像 Eat, Pray, Love, 疯狂原始人, 蓝精灵, 冰川世代的评价差别是很大的

那么,有没有可能因为豆瓣上的用户比较文艺、小清新,所以对于爱情、动画类的电影,评价会偏高。我们可以按分类来画散点图来比较

这里,大家可以把关注点主要放在回归折线和 1:1 直线的关系上。可以发现,对于动作、爱情、喜剧等等类别的电影回归直线的斜率都有不同,但总体相差不大, 而动画类则很明显,都已经平行了。

在 IMDB 的低分区,确实有不少电影被高估了,具体地址散点图

3.2 国别会有影响吗?

另外一个现象,是国内电影的差距似乎较大. 比如少林,让子弹飞,一代宗师

我们同样也可以画出一条散点图比较

然而其图和之前的并没有太大差别。当然也有可能是样本比较少的原因。

3.3 恶意差评?

这次特地补充一下恶意差评的现象, 其实这才是现在大家关注的点。这里,我觉得举一个例子就够了

请猜一下,这部电影的 IMDB 评分是多少?

IMDB 链接

4. 结论

最后,请大家猜一下,黑客帝国 3 的豆瓣电影评分IMDB 评分是多少?

11477 次点击
所在节点    分享创造
73 条回复
sammo
2016-12-30 15:07:39 +08:00
@buckyRRRR 什么小透明啊,都一群事儿逼
jakiepaper
2016-12-30 15:14:06 +08:00
首先亮个平台的评分机制是不一样的,你这样的简单比较得不出任何结论。例如在 IMDb 上 7 就是佳片,豆瓣要上 8 才算好。
hoythan
2016-12-30 15:45:46 +08:00
外国人拍啥都是好的啊,你试试吐槽国外的电影真的会被喷的.喷子喷不过就会拿国内的和国外的作对比,国内确实烂翻天,所以你也没啥话说.
xxdd
2016-12-30 15:58:00 +08:00
彗星来的那一夜 这个我喜欢。
看来是个人口味问题
guotie
2016-12-30 17:01:59 +08:00
老外的平均智商较低,科幻片评分低有情可原
arfaWong
2016-12-30 17:32:36 +08:00
《豆瓣电影水军价曝 20 元一次:影评就这么刷的》
http://news.mydrivers.com/1/513/513916.htm
jedicxl
2016-12-30 19:24:18 +08:00
@arfaWong 驱动之家的也就笑笑而已,和俄罗斯的《真理报》一个路数,还没人家会玩
est
2016-12-31 00:06:47 +08:00
jupyter 赞!
vix
2016-12-31 10:37:26 +08:00
为什么我觉得挺好, 又不是写论文, 写成论文了估计也没人高兴看.

LZ 可以尝试再挖点有趣的东西出来.
alangz
2016-12-31 20:29:42 +08:00
俩网站面对的用户群体不同,应该没有可比性。
yuchting
2017-01-01 11:10:15 +08:00
楼上有人说是“一本正经的无用功”,我反对,因为卤煮分析问题的思路和方法都是非常可取的,这个和我当年做的用牛顿插值函数预估学校食堂的成本是一样的道理,有人说只是无用论,可是再高级的知识不能应用于最普通的生活之中,那就真的是无用了。

保持好奇心,卤煮我挺你!
ytlie27
2017-01-06 18:27:25 +08:00
请问类似正态图是用什么工具做出来的?
cqcn1991
2017-01-07 07:37:29 +08:00
@ytlie27 全部是 python 的 Matplotlib 作图

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/331068

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX