Python实战——2020左翼影响力分析
漫画:马凡(激流网志愿者)
2020年开年以来,我不止一次地听到过这样的说法——“今年的形势真的不一样了”,“年轻人开始关注马克思或毛主席了”,“新一辈人开始关心社会问题了”。这样的观点出现在知乎、微信公众号,也出现在朋友同学的日常聊天里。其实我自己隐约之间也感受到了风潮的变动。在B站,11月份一个《国际歌》的演唱视频拥有了数百万的播放量,在几天内一直留在B站的首页;在知乎,一个问中国近代最伟大的人的问题, 90%以上的回答是 毛主席。这样的现象在数年之前根本无法想象。可是用这样的个例来说明社会思潮风向的变化仍略显说服力不足。有没有更好的方法呢?或许对一个平台进行整体数据分析后得出的结论更具说服力。
为了解决内心的疑惑,我学习了基础的python编程知识,使用爬虫爬取了B站和知乎的部分数据,以下是分析的方法和部分结果。
一、B站
B站是一个广受年轻群体青睐的视频网站,最初是一个专涉ACG(动漫、游戏)内容的视频网站。经过10年的发展,目前其视频内容已经无所不包,其影响力也早居所有视频网站前三。在B站上对某个关键词进行搜索可以进入其搜索结果页面,其中每页显示20个视频,搜索页面至多50页,搜索结果可以按照视频播放量进行排序。即通过对B站视频搜索页面进行信息爬取可以获得特定关键词相关、播放量前1000位的所有视频的信息,包括视频名称、url、上传时间、播放量和弹幕数量。
我最初的想法是,爬取左翼相关特定关键词的播放量前1000位的视频信息,找出其中在2020年上传的视频,如果其比例较高,岂不是就能说明左翼的影响力在今年有所增长了么?经过一次尝试,效果显著!以下是关键词为资本家的视频数据统计:
可以看见,资本家相关播放量最高视频在2020年有807个之多!可是光是这个数据还不足以说明问题,B站在最近两三年影响力不断扩张,用户数量飞速增长,按理搜索任何一个关键词,相关热门视频的数量也应是2020年偏多的。因此,需要有其他关键词相关视频的数据来做空白对照,才能够真正说明问题。这样的空白对照关键词需要有以下的特征:词语含义在近几年保持稳定,同时其在B站上的影响力也在多年内保持稳定。我想到了一个法子:在“哔哩哔哩”搜索“哔哩哔哩” !当然实际操作中还搜了其他一些关键词。结果如下表。由于2015年之前的热门视频占比太小,在结果中就不再展示了。
结果显示,“哔哩哔哩”和“bilibili”相关热门视频数量在2020年为约550个,但其并不适合作为空白对照。因为B站在近年不断建构其自身概念,所以这两个关键词在B站的影响力是随着时间不断提升的。“星际牛仔”、“Clannad”和“魔法少女小圆”是几部经典的动漫作品,其影响力随着新作品的产生而不断的衰退,也不适合用于空白对照。“古筝”的热门视频数量在2020年甚至还比不上2019年,可以从侧面看出B站演奏区的萧条。最终,人称代词“她”和“它”被选定作为对照关键词,其含义一直保持稳定,同时,因为它们的通用和中性,影响力恒定的条件也可以满足。“它”和“她”两个词的热门视频数量和播放量在每一年都相差无几,也佐证了其稳定的特点。通过对对照词汇的选择,我们也能够发现,一个影响力在多年内保持稳定的词汇,其播放量前1000的视频,在2020年应大约有450个。而如果有一个关键词相关热门视频数量在2020年大幅超出,可以认为这个词组的影响力2020年在B站是有大幅度提升的。
有了对照组就可以进行目标词的分析了,我选择了数十个左翼相关的关键词,分别获取了其对应热门视频的信息。其中有部分关键词的分析没有获得很好的效果,原因主要有两点,其一是选取的关键词范畴过于宽泛,搜出大量无关内容,这一部分的词组有教员、雇佣、计划经济、市场、人民、民主、平等、国企、文革(计划经济一词在搜索时重点会落在“经济”上,搜出的大量内容和“经济”有关而和“计划”无关);其二则是词组相关视频过少,不满1000个,样本不具有代表性,这部分的词组有剩余价值、利己主义、集体主义、私有制、公有制、恩格斯、平均主义、包产到户、阶级矛盾、阶级斗争、官僚主义、阶级固化,其中私有制、公有制两个词在日常应用较为广泛,可相关的视频数量极少,分别只有80和110余个,这其中原因颇耐人寻味。
能够分析的关键词热门视频的数量如下表所示:
(不同关键词热门视频各年度播放量占比和视频数量占比差距不大,文内不再展示)
这些关键词可以分成几类,第一类是资本相关的三个词,资本、资本家和资本主义(还有和这三个词对应的“企业家”和“马云”);第二类是和伟大导师和他所创立的理论相关的三个词,马克思、马克思主义和共产主义;第三类是苏联相关的三个词,列宁、十月革命和苏联;第四类是“国际歌”;第五类是和社会现实相关的三个词,打工、房价和经济危机;第六类是左翼理论话语体系中的常用词,国有经济、阶级和工人。
整体上来看,大多数的左翼相关词汇在2020年的热门视频数量都大幅超出稳定的对照词“她”对应的视频数量,如第一类的资本相关词组(对应的企业家和马云则拉了胯),第二类中的“马克思主义”和“共产主义”,第五类中的“经济危机”以及第六类中的“国有经济”和“工人”。稍微不济一些的也基本在2020年有500个以上的热门视频,如“打工”、“房价”、“国际歌”、“马克思”和“资本主义”。唯一不动如山的是第三类中“苏联”相关的关键词,由苏联相关热门视频的总播放量不低来推断,苏联话题相关视频在两三年前就已经比较热门了。不同关键词热门视频的总播放量数据如表所示,首先是对照组各词的:
*这里采用的是科学记数法, E+09表示10的9次方,依此类推,如4.2E+07则为4.2*10^7,等于4200万。
因为对照组各词选取的不是通用词汇,就是热门动漫,其总播放量都极高,通用词汇“哔哩哔哩”和“她”的播放量水平在10亿量级,两部热门动漫和“古筝”相关视频播放量在1亿量级,“星际牛仔”稍差一些,播放量在4200万。
可左翼的话语难道小众么?相关热门视频的总播放量在1亿量级的关键词如下:
总播放量在千万量级的有:
从不同关键词视频总播放量的数据和2020年热门视频占比的数据,我们是可以作出结论的,左翼在B站并非特别小众,而它的影响力在2020年提升亦非常明显。
二、知乎
知乎作为一个问答类的社区,数据获取和分析的切入点更加难找。我本来试图搜索获取特定关键词在2020年某月和过去一年某月的全部结果进行词频等的分析。但无奈发现技术能力和电脑硬件水平不足以支撑这样的分析。所以我更换思路,爬取了2019年1月和2020年六月单数日知乎热榜问题的所有回答作为分析样本。因为知乎自己并不进行历史热榜的统计工作,历史热榜的数据采取的是第三方网站的统计结果,每天仅统计15个问题而非50个。爬取完成后2019年1月热榜问题对应回答的文字数据共166MB,2020年6月的为100MB。
对这些数据进行特定关键词的词频(即词组出现数量)分析,结果如下:
固然词频的对比十分显著,可是分析却难言十分成功,因为对于知乎热榜来说,一个问题往往对应几百上千个回答,只要热榜问题和待分析关键词扯上关系,回答中就可能多次涉及到这一关键词,带来显著的差别。而热榜问题数量每一组只有225个(15天,每天15个),样本量偏小。
三、总结
我本人学习的是传统工科,不管是对python编程还是对社会思潮的分析都是外行,甚至可以说在本次分析之前一窍不通。研究颇有不严密之处,请读者见谅。即便如此,我自己的疑惑还是解决了,我知道,今年所有这些“年轻人开始关注马克思”的说法并非空穴来风,而是确有现实背景。至于更为具体、更为严密的分析,还是得留待更为专业的人士来完成。我的研究权作抛砖引玉。
PS:
1. 本次分析的数据爬取工作采用了github上的成熟程序,对程序编写者表示感谢。
2. 感谢“南瓜”先生的技术支持。