通过7万条视频数据看2019年B站鬼畜区发生了什么
前言
鬼畜就是通过对严肃正经话题进行解剖后通过重复,再创作等形式用以达到颠覆经典、解构传统、张扬个性、强化焦点、讽刺社会的一种艺术形式。 引自百度百科
作为常年混迹于B站鬼畜区的潜水怪,今天心血来潮,趁着周末爬取了2019年B站全部的鬼畜视频信息,并做了一些分析整理,把数据分享出来。分析的主要目标是 鬼畜区下于2019年上传的视频 。
其中,三个分类的定义分别是:
-
鬼畜调教: 使用素材在音频、画面上做一定处理,达到与BGM一定的同步感。
-
音MAD: 使用素材音频进行一定的二次创作来达到还原原曲的非商业性质稿件。
-
人力VOCALOID: 将人物或者角色的无伴奏素材进行人工调音,使其就像VOCALOID一样歌唱的技术。
为什么是这三个分类呢,因为技术原因无法直接获取归类为鬼畜的全部视频,而这三个基本包括了全部的鬼畜视频,所以只能分而治之。不多哔哔,下面开始正式的分析。
总体数据
2019年,B站创作者一共上传了 70137 个视频,产生了 2953634423 次观看,共被收藏 88589614 次,产生评论 7021911 条、弹幕 14032447 条,鬼畜视频时长总计 11119627 秒,正常人不睡觉不倍速需要 128天 才能全部看完。
其中,up主 洛温阿特金森 的 【派大星的独白】一个关于正常人的故事 收获了 24368311 次播放和 1657837 次收藏,均为2019年鬼畜区全站最高:
up主 泽野螳螂 的 假面骑士----京骑 共产生了 75483 次评论,为2019年鬼畜区全站最多。
up主 冷瓜总是那么智障 的 【自信姐】我觉得我很可爱~(内附高清原版素材) 共产生了 177270 条弹幕,为2019年鬼畜区全站最多。
up主 花抄抄大爷 投稿的 新B站最长不循环】葛平-圆周率6666666位,预计230小时(更新中,15/24) 是2019年所有鬼畜视频中最长的,一共有 595分钟 。
重要排行
2019年B站鬼畜区播放数、收藏数、评论数、弹幕数前20的分别如下:
播放数排名:
收藏数排名:
评论数排名:
弹幕数排名:
从这份排名可以看出,无论从那个角度分析,B站用户的喜好都围绕着以下几个题材(后面会进一步证实):
-
全明星: 即各种鬼畜素材的大集合。
-
蔡徐坤: 凭借一首鸡你太美和神乎其技的篮球水平,另加一封律师函,得到了B站创作者的格外照顾。
-
李云龙(《亮剑》向):楚云飞的358团也要帮帮场子呀。
-
奥利给(巨魔):凭借一句魔性的"`奥利给`"成功杀入B站鬼畜名人堂。
-
解构向:对时下流行影视歌曲等进行解构恶搞,的如头号玩家、芒种、野狼Disco、出山、生僻字等。
-
赵本山/宋丹丹:凭借一曲"`改革春风吹满地`"霸榜数月。
-
五五开:上香、吐痰一条龙。
投稿趋势
全年投稿趋势如下:
每个月的投稿数量如下:
由这个趋势可以看出, 二月、七月、八月创作者最为活跃,说明鬼畜的主力军还是在校学生,寒暑假给了他们充分的爆肝时间 。
谁最高产
2019年一共有4位up主产出了超过100部的鬼畜,这里还可以继续挖掘的使他们的主要创作方向是什么,最受欢迎的up主是哪些。
时长分布
B站的鬼畜视频时长分布如下:
可以看到,1~3min的鬼畜最多, 一般这个时长的鬼畜无论是制作成本还是观看成本都是最小的,符合鬼畜消遣时间的特性。
年度标签
为了保证精确,这里把一些干扰词汇过滤了,如下面排名最高的几个词汇其实都是官方标签,没有分析价值,所以会剔除掉。
(标签,出现次数)
('鬼畜调教', 42489)
('搞笑', 20989)
('自制', 15702)
('洗脑循环', 12903)
('人力VOCALOID', 12599)
('蜜汁带感', 10684)
('恶搞', 10098)
('鬼畜', 10002)
('bilibili新星计划', 7210)
('暑期爆肝挑战', 5923)
('音MAD', 5821)
('音乐', 5091)
('鬼畜素材', 4451)
('葛平', 4181)
('枪声音乐', 3736)
('新人', 3505)
('蔡徐坤', 3482)
('电音', 3407)
('洗脑', 3227)
...
最后得到的结果是:
这张图,懂的人自然懂,不懂的人也不是这篇文章能讲完的,所以不多哔哔了。
小结
昨晚有这个想法的,然后看了下B站的页面,找到了一个可以比较方便拿到这7万条数据的入口,今天的主要时间就是爬数据、写脚本分析数据。
-
原始数据和代码:都不会公开,纯粹是个人兴趣研究,不想公开造成不必要的麻烦。
-
未完待续:基于原始数据还有很多可以挖掘的地方,比如每个月的热点,年初的"`改革春风吹满地`"、年中的"`鸡你太美`"、“闹太套”、年底的"`穷哈`"等,都是有聚类现象的,但是目前自己这方面不是很闪出,所以很多原始数据没有充分利用。需要继续提升对数据的理解和处理能力。
以上。