本文经Alfred数据实验室(ID:Alfred_Lab)许可转载
315党揭露了各家公司的造假行为,但为何不正视流量明星的数据造假呢? 作为数据猿,我们出于好奇点开了NBA新年大使蔡徐坤的微博,发现除了最新的一条之外,他的每一条微博转发量都超过了100万次。
在我们的印象中,转发100万+就是一些明星官宣结婚,或者一些明星吸毒、出轨被曝光时足以让微博服务器崩溃的流量。 蔡徐坤真的那么受欢迎吗? 他的100万+转发量是否存在虚假流量? 虚假流量占比是多少?
为了回答这个问题,我们通过微博移动端(2019年3月11日时间节点10:00)随机抓取了蔡徐坤最新微博《再见,“任性”芊芊……》的10万条转发数据。 这段关于蔡徐坤关爱小动物的短视频于2019年3月9日01:23发布在微博上,截至2019年3月10日18:00,转发量已超过100万次。
数据的维度包括转发者的信息(昵称、性别、关注人数、关注人数等)以及转发时的评论。
蔡徐坤微博转发是否存在虚假流量?
在回答这个问题之前,我们其实更感兴趣的是蔡徐坤粉丝的性别比例。 按理来说,他的女粉丝比例应该更大微博买转发,但我们统计的102313条转发数据中,有93618条是男粉丝转发的,只有8695条是女粉丝转发的。
这是错误的。 像蔡徐坤这样的男生多吗? 而且这个比例也太悬殊了吧? 于是我们随机抽取了男生转发的数据,发现转发这些帖子的男粉丝基本都是关注0和关注1的用户。
我们合理推测这些流量是所谓的假流量。
那么虚假流量占了多少比例呢? 随机抓取的10万条转发数据中,有多少是虚假流量?
真流量和假流量的比例是多少?
通过一些探索和分析,我们对转发数据中转发者关注数或粉丝数小于等于5、没有个人资料、转发后点点赞数和评论数为0的数据进行了分类,微博会员等级数为0,提取关注者数或转发者关注数大于等于5但昵称为“用户XXXXXXXX”等数据。
这部分数据就是我们所说的虚假流量。
可以看到,102313条转发数据中,假粉丝转发95397条,占转发总数的93.24%,真粉丝转发的只有6916条,占6.76%。 原来虚假流量占比这么高!
那么真实粉丝转发的6919条数据中,除去为了提升排名而重复转发的次数,到底有多少真实粉丝在转发呢? 我们根据粉丝的微博ID对这部分数据进行去重。 结果发现,仅有3926名真实粉丝转发,这意味着实际转发的粉丝数量占总转发量的3.84%。
按照这个比例可以算出,在100万转发中,实际转发的粉丝数为3.84万,这说明蔡徐坤的粉丝基础和影响力还是很大的,但远远不及100万+的转发量。微博上显示的转发。 大的。
你可能会说:我们自己的微博经常会有一些假粉丝转发。 为了进行对比,我们还抓取了目前活跃在《歌手》舞台上的吴庆峰叔叔(粉丝1377万)的最新微博转发数据10006条(时间节点2019年3月11日10点)。
我们按照上面同样的步骤,从这个数据中提取真假粉丝的转发次数,发现假粉丝的转发量只有一小部分,大部分都是真粉丝的转发。
而且,在9658条真实粉丝转发数据中,真实粉丝数也高达9318人,说明不存在粉丝排名这一说法。 对比蔡徐坤的数据,我们可以发现明显的差异。
假流量粉丝是如何产生的?
93.24%的假转发中,这些假粉丝是如何产生的? 他们有哪些共同的行为特征? 我们首先为假粉丝创建用户画像。
可以看到,95397条假转发中,有40838名假粉丝。 其中,男性比例高达95.42%!
我们统计了转发中包含的评论,看看假粉丝在转发时喜欢说什么微博买转发,并发现了一些更有趣的内容。
不少假粉丝转发了“蔡徐坤南岸莫隐小姐”、“超超超爱蔡蔡思思”的微博(请勿攻击)。 我们搜了一下这两个人,发现他们的粉丝只有一两百,而且转发的都是蔡徐坤的微博。 很多微博的转发量为0,但也有少数微博的转发量达到了数千!
这些很可能都是粉丝自己花钱给自己的偶像买流量。
另外,我们发现很多假流量粉丝在转发时喜欢带英文评论。 经过查找,我发现这些英文评论要么是英文歌词,要么是美剧台词,要么是泰戈尔、聂鲁达的诗。
在假粉丝使用的前10名转发设备中,Android位居榜首,这再次证明这些粉丝都是假粉丝。
还有一些有趣的发现:假粉丝的平均关注度为3.44,平均粉丝数为1.04,没有任何介绍,昵称基本都是“中文+英文和数字”的格式。 很多假粉丝的昵称都有“坤”、“蔡”、“奎”、“坤”等字样,头像都是蔡徐坤(说明很多都是定制粉丝)。
真实流量粉丝的粉丝画像
我们先来看看忠实粉丝的性别比例。 可以看到,3926名铁杆粉丝中,女生占绝大多数。 这是一个逻辑上的风扇比例。
从这些粉丝的评论中可以看出,他们转发的留言不少是支持蔡徐坤夺得#星实力榜#或者#东风云碰#第一名的。
真粉丝使用的转发设备分布比较均匀,其中最受欢迎的是iPhone客户端。
真粉丝平均关注度为222,平均粉丝数为179。同样,很多粉丝喜欢名字中带有“坤”、“才”、“奎”、“坤”字样。
我们制作了真实粉丝档案的词云。
看得出来,真正的粉丝都喜欢在自己的个人资料里有蔡徐坤的名字。 他们非常喜欢蔡徐坤,想要永远陪伴他。 看着里面的“青春”、“努力”、“自由”、“追梦”四个字,我才发现,这就是我们曾经的青春。
此外,转发所附的评论也被制作成了词云。
看得出来,粉丝们对于“荣誉奖”非常关注,想要帮助蔡徐坤获得第一名。 有早安打卡、超级话题,还有很多“开心”、“同情”、“温暖”等词语。 说明大部分真粉还是很温热的。
总结
数据显示,蔡徐坤微博转发次数动辄超过100万次,其中确实存在绝大多数虚假流量。 这些虚假流量估计有两个来源:一是自己的经纪公司购买的,二是忠实粉丝自费购买的。
如果是被自己的经纪公司收购的话,确实会扰乱整个娱乐行业市场的运行,对于娱乐行业乃至整个社会风气都是不好的。 如果是忠实粉丝购买的话,我认为数据只是数据,资金可以用其他更好的方式来增加对自己偶像的影响力。 我看到蔡徐坤最近转发的#脱贫攻坚战星光行动#的话题很好。 利用自己的影响力去做更多积极的事情。 (看到作者满满的求生欲了吗?!)
作者简介:Alfred 毕业于暨南大学,是一名数据挖掘算法工程师。 主要研究领域为数据挖掘和机器学习。
源代码:
2019年开发者如何抢占快应用技术制高点?
热门文章推荐
☞京东大力推行995工作制。 中国式变态加时赛何时进行?
☞315之后,等待失业的程序员
☞我的手机被“探测”了吗?
☞在德国的中国程序员:海外版抖音流行,IT人才却稀缺! | 畅所欲言
☞
☞大数据背后的无奈与焦虑:“128元礼服”有短、差、公平之分吗?
☞麦克阿瑟奖获得者宋黎明:区块链能否保密、保护隐私? 太年轻,太单纯!
☞猪变飞机? 人工智能为何如此愚蠢? 对抗性攻击
☞
System.out.println("点击查看!");
console.log("点击查看!");
print("点击查看!");
printf("点击查看!\n");
库特
发表评论