这些天星爷与徐克的电影《西游伏妖篇》上映了,两大鬼才的作品吸引了很多粉丝的注意,当我们满怀期待的买了电影票之后,很多人却再一次被吴亦凡、林更新、包贝尔的演技所折服,一时间差评如潮,在豆瓣上评分一路跌到5.6分,然而在1月28日13点左右豆瓣评分突然飙升到了8.1分,之后又回到了5.6分。
很显然是水军在作怪,豆瓣也很快的进行了相关的处理,但是我们现在去看豆瓣评分还是会发现有多9.3%的五星好评,豆瓣的水军处理的彻底吗?对一些水军的短评做了删除吗?豆瓣没有进行任何说明,充满好奇心的我想要做一个彻底的调查。
抓取的数据:截至1月30日14点,西游伏妖篇豆瓣短评共计40105条,对数据进行清理删除之后还有36409条短评,包含短评发出的作者id、时间、内容等。
判断是否存在水军的思路有如下:
- 是否存在有时间段五星评价数量多并且很集中
- 给五星评价的用户中新注册用户比例是否很高
- 相似言论是否过多
根据已经抓取的数据,我决定先从是否存在时间段五星评价很集中,豆瓣把时间戳隐藏在了每个评论中,时间戳可能进行了修改,我这里没有把它还原出来直接用了原始的数据,因为就算时间偏移,时间的间隔是没有变化的,还是能看出时间段的评分频率。
注意时间是错位的,根据时间戳换算的数据最新的一天是2006/04/03应该对应到2016/01/30,以后所有日期可以换算得到。
我把时间精确到短频数量较多的这几天,并且把时间间隔调到分钟,现在只看这些短评数量较多的这几日是否有异常。从整体的短评数量来看,是比较正常的,数据波动不是很大,刚上映两三天评论数量暴增,而后开始有下滑趋势。
既然整体的短评数量没有问题,那我们需要看两个点:
我们先按照短评给出的各种星级分别进行划分统计查看随着时间数量的波动。
单独提出0星和1星的短评进行统计,如下图1星的短评数量随时间的波动几乎与整体短评数量波动保持一致,没有某一特定时间节点1星短评突然上升之后又突然下降的情况。
再单独提出5星的短评进行统计。
五星短评数量随时间波动较为很明显,并且没有随着总体的波动而波动。甚至在一个时间段2006/03/20~03/21的时间点,准确来说是03/20下午2点到03/21上午12点之间,五星评价数量十分多,之后的五星短评的数量又猛地下降,异常值来了。
当然光从数量上没有说服力,我们可以再进一步看每个时间点五星短评的占所有短评的比例。
这样一来是不是更加明显了,五星短评在上述时间内不仅数量多而且占有比例非常高,并且在过了时间段之后基本上趋于平稳,现在我们需要去探索一下上述所说的时间点的评论是不是来自水军呢?我们继续去一探究竟。
下面就把这个时间段的所有的五星短评都拉出来看看。
截取部分内容如下(用户ID为发出此评论的人):
光是此阶段有772条短评部分如上所示,怎么样?什么感受?短时间内高度重复的几个内容甚至使用一些相同的词语,赞美之词溢于言表,不是水军是什么呢?这仅仅是此阶段的一些五星短评,可能其他时间段还有一些,这里也不再去一一探索,结论已经得出:显然,豆瓣的这部电影还有不少的水军在,豆瓣并没有清理干净。
最后的彩蛋我们看看这些大兄弟都怎么说:
超兄弟都这么说:
双王兄弟都这么说:
恭喜你看完彩蛋,但是还没有结束,正如评论区以及知乎社区各位知友所持有的态度一样,对于这种的争议比较大的影片,达不到五星的标准并且没有差到一星那么低的情况下,我们可以把所有的一星以及五星短评全部去掉之后综合评分。
先把星级分为两组:0\1\5星级高低分组,2\3\4星级普通分组
先是综合两个分组所有星级:总分50分,总得分33.96分
去掉高低分组所有星级,保留普通分组:总分50分,得分31.73分
--2017.02.02更新,感谢@江汉臣 --
很多评论说之前的给出的时间段的评论给的不全,评论并不是千篇一律的好评内容一致,这里在丞兄的指导下,做了文本聚类。红色表示的是疑似水军评论时间段的所有评论,绿色代表的是整体的评论。发现红色的时间段评论内容特征更加趋于一致,而整体的评论相对分散,因此水军的短评必定是使用了一些统一的模板。
...更多文章,关注:知乎专栏 - 学习编程