2021年8月,微博通过公众号“微博管理员”正式公布了微博热搜的产品规则和算法机制。
热搜算法是怎样组成的?
据微博介绍,热搜数据的逻辑是根据用户的真实行为计算出来的。
微博平台实时关注平台上受到用户广泛关注的热点内容,并据此形成热搜榜。
榜单的排名代表了该话题的关注程度。 排名越高,说明该话题在同一时间段内受到的关注度越高。
但注意力是如何量化的呢?
此次披露的是微博热搜热度计算公式:(搜索热度+讨论热度+传播热度)x互动率。 微博平台每分钟计算一次话题和热度,并展示前50名的话题。
事实上,这并不是微博第一次公开其热搜算法。
从时间线来看,在这款作为“脸”的国家级产品的发展历程中,其算法经历了两次升级、三次亮相。 每次算法升级和新功能发布都附有规则或算法的公开解释。
2014年,微博手机版推出热搜功能。 计算方式基于“搜索量”,列表每10分钟更新一次。
2018年3月,热搜算法迎来首次重大升级。 在原有“搜索热度”的基础上,热点话题的讨论、传播、互动数据也纳入计算。 此时微博热搜的计算公式优化为:(搜索热度+传播热度)×话题因子×互动因子。
得益于新评价维度的引入,算法升级使得热搜的抓取和排名更加客观准确。 据微博热搜团队介绍,热搜的多次算法升级代表了团队对热点理解的不断进化。
上线之初,热搜主要依靠搜索数据进行排序。 问题在于,并非所有热点都可以通过搜索功能来挖掘和呈现。 后续升级将通过扩展算法中讨论热度、传播热度、互动热度的计算,更精准地覆盖微博热门讨论内容。
但对于此类升级也存在不同看法。 例如,郑州大学新闻与传播学院讲师王茜指出,搜索量是隐藏的,因此往往更真实,但“转发、点赞”等维度的数据往往包含性能元素,这意味着它更容易操作。 。
2021年8月的声明可以看作是热搜算法的第三次升级和披露。 此次算法升级,增加了“讨论热度”这一新的数据维度,并去掉了“话题因素”,这似乎是一个更加主观的标准。 这样的调整正是为了更全面、更真实地计算热点的完整热量。
此次声明的背景与此前类似,但也存在一些差异。
据微博声明,2021年以来,有关热搜的猜测和谣言甚嚣尘上,各界对热搜的关注度也越来越高。 正因如此,微博发布公告,公开了微博热搜的产品规则和算法机制。 可见,这一表态主要是迫于外部压力而引发的。
在讨论这个说法之前,我们先思考一个问题:微博热搜面临哪些质疑?
微博的起点
微博热搜面临的最大问题是榜单的客观性。 具体来说,就是“买热搜”的问题。
“买热搜”是指希望自己的话题登上热搜榜的主体。 他们付费给第三方机构,通过刷数据的方式获取热搜榜话题,以提高事件曝光度或营销效果。 的目标。 这几年,不断有质疑某些话题购买热搜的声音。 类似的质疑反映了微博作为国货的社会影响力和关注度。
热搜采用数据化、自动化、程序化的方式处理搜索词,为用户提供一个供用户浏览和点击的排名列表。 在这个过程中,复杂的现实世界被转化为有序的信息项。 通过收集、过滤和排序信息项,算法决定哪些主题可以成为公众关注的焦点,哪些主题将淹没在信息的海洋中。
可以说,热搜是微博平台流量的展示。 由于微博已经成为社会信息的聚集地之一,微博热搜在相当程度上反映了中国人每分每秒最关心的话题。
用郑州大学新闻与传播学院讲师王茜的话说,热搜满足了用户渴望获取新闻的“社会感知”:“在当今信息快速海量流动的时代微博买热搜,热搜以微博热搜为代表的搜索榜单对近期热点话题、近期重大事件的呈现,会对网络舆情起到一定的引导作用,也会对公众的价值判断和审美取向产生很大影响。 ”
此前有报道指出,热搜已成为大学生获取新闻信息的主要渠道。 事实上,不只是大学生。 随着信息的快速流动,热搜也成为公众判断某一事件、现象或人物的社会关注度的重要依据。
正是因为微博热搜的地位如此重要,“买热搜”、“刷热搜”等数据造假行为就让人难以容忍。 这就是用户和监管机构高度重视的原因。 同时,微博也是频频管控此类行为的切入点。
2020年3月1日起施行的《网络信息内容生态治理条例》将“热搜”列为重点打击对象。 文件第十一条鼓励网络信息内容服务平台坚持主流价值导向,优化信息推荐机制,加强版面生态管理。
热搜机制透明
此时点,面对质疑,微博选择公开2021年8月微博热搜的产品规则和算法机制,显然是一种姿态的展示。
根据微博公开信息,微博热搜算法主要是指搜索热度、讨论热度、传播热度、互动率等几个热度指标。
尽管这些流行度指标都反映了该主题的流行度,但它们各自指向不同的方向。
具体来说,“搜索热度”是基于搜索行为的热度模型,反映用户对热点话题的关注和探索; “讨论流行度”是基于原创和转发的博客行为的流行度模型,反映用户参与讨论的程度。 热情; “公众人气”是根据全站热搜结果相关微博的阅读量建立的人气模型微博买热搜,反映了微博系统内热点的传播情况; “互动率”反映了用户消费内容的意愿。
这样的热度计算模型是根据微博平台的特点而设定的。 一个普通的微博用户会关注不同层面的热点。 触达热点、积极探索热点、参与热点讨论,都可以证明热点的受欢迎程度。 综合到数据维度,体现为搜索热度、讨论热度、传播热度三大类。 除了三大热点之外,互动率也体现了热点的质量和消耗性。
三种最流行的模型在不同数据维度上实现了初始维度转换对齐。
例如,阅读和搜索代表了不同程度的关注和参与,这意味着行为的价值是不同的。 这是一个层次的转换。 同时,由于不同领域热点的起源和发酵路径不同,三大热点的表现也有所不同。 因此,算法中实现了不同领域信道热点计算模型的差异。 比如,在社会热点话题的发酵过程中,引发用户讨论是一个非常重要的能够体现差异性的指标。 在社交热点的热度计算中,用户的讨论更受重视,在热度计算中具有更高的权重。
除了公开热搜算法外,微博还公开了许多热搜算法以外的规则,比如一系列维护热搜纯洁性的措施。
“买热搜”其实和我们大多数人的想法不一样:“交钱就上榜”、“任意上榜”、“可以买热搜,也可以退出” 。
在2021年8月的这份声明中,微博表示热搜排行榜中不存在任何商业销售位置。 热搜排名之外,还有两个广告资源位,一个是第3位,一个是第3.6位。 除了不参与排名外,以这种方式“出现”在热搜榜上的商业广告,也会带有明显的“商业”字样标签。 同时,微博官方对广告内容提供了严格的审核机制和上架规则。
热搜榜上的广告资源并不采用竞价模式,而是采用定价模式,按时间段(天或小时)出售,定价一般按年份更新。
此外,“购买热搜”、“刷热搜”的行为并没有得到官方允许,是政府持续打击的行为,比如喷子刷数据、明星粉丝造数据等。公告称,针对上述两种行为,热搜算法包含严格的引流和反垃圾机制。
2019年之前,第三方机构大多通过机器提升搜索量来达到提升排名的目的。 为此,热搜重点加强了搜索反刷单。 2019年后,由于搜索反刷赞制不断升级,已经很难达到通过刷搜索量来刷排名的目的。
与此同时,随着热搜算法开始全面升级,除了搜索热度之外,还增加了讨论热度、传播热度、互动率等维度。 一些机构开始从热点传播的角度出发,利用大规模博文和喷子来伪造真实用户参与话题讨论。 他们试图通过刷讨论数据和互动数据来增加人气,以达到刷排名的目的。
由于热搜算法所依赖的核心数据来自于微博的搜索行为、讨论行为、互动行为,而人气的传播又依赖于微博讨论,因此,热搜算法还构建了搜索行为防范机制来应对数据伪造。 防刷有微博讨论防刷、互动防刷三个系统。 在用户层、行为层、内容层等不同层面设置反刷策略,剔除异常数据。
近年来,热搜算法采用了更加严格的用户过滤机制,排除为了排名营销的用户和行为异常的用户,杜绝通过低质量用户伪造人气的行为。 疑似垃圾邮件用户、流氓、假设备账号等异常账号将被排除。 热搜计算之外。 在行为方面,算法还对行为源进行多维度特征管理,过滤疑似异常行为日志。 同时,通过对热点下聚合行为特征的分析,包括用户群体分布、终端系统分布、内容特征等维度,算法可以识别出可能出现热度异常的热点内容,严格防范甚至阻止惩罚这些内容。
防刷赞制持续在线实时计算,防止内容通过数据刷行为上榜。 如果内容列出后开始刷数据,则会触发自动反刷惩罚机制。 对于数据异常的内容和账号,平台将定期发布处罚公告,并给予禁止列入名单、不纳入搜索等处罚。
为了保证算法能够正常发挥作用,微博热搜在话题的选取和排序方面加强了人工管理。 不仅加强了对热搜信息的人工管控,还对所有上榜热词进行人工审核。
为了提高内容审核能力,微博设立了独立的内容编辑中心,负责热搜和热门话题,包括热门微博产品等曝光度较高的产品,对所有热词进行人工审核和判断在名单上。
经过多年的发展,微博热搜已经从社区搜索排名产品演变为社区原生热点内容榜单产品,如今又结合媒体新闻热点成为更加全面的热点榜单产品。
“什么是热搜”实际上取决于“大众需要什么样的热搜”。
无论其承载的内容如何变化,热搜作为一种内容型产品,一直在随着时代的发展和公众认知的变化而不断成长。 其本质是为用户提供新鲜、真实的信息。
根据微博的反馈,微博将进一步尝试让热搜更加透明。 例如,用于热搜计算的几大热度指标(搜索热度、讨论热度、传播热度、互动率)都可以直接实时查询。 在让系统可解释的道路上,微博还计划发布更详细的内容管理规则,以进一步促进热搜机制的透明度。
本文节选自《科技向善:从银发乡村到无障碍新商业范式》。 更多精彩内容,请阅读本书!
京东满100立减50,赶紧扫码抢吧!
发表评论