背景
快手数据服务平台(代号Havok)是数据赋能业务的风口,目前服务于直播、电商、商业化等核心业务。 数据服务面临着大请求流量、低数据延迟、高稳定性等挑战,尤其是在大规模事件中。 数据服务平台从服务隔离、链路分级、容错建设、综合监控、流程规划等方面构建了全面的服务保障体系,以零的方式支撑公司大型活动的数据服务场景。失败。 本文重点介绍两个方面:一是快手数据服务平台的介绍;二是快手数据服务平台的介绍。 二是数据服务保障体系建设方案。
快手数据服务平台传统数据服务开发痛点
数据是支撑业务发展的重要因素,数据赋能的主要方式之一是以服务的形式提供给业务。 传统的开发流程涉及多个步骤快手点赞自助平台有哪些,包括业务提出数据请求、DE(数据工程师)开发相应的数据资产表、将数据表打包成微服务供业务方使用。
图1:数据开发流程
传统的数据开发模式存在多个问题:
1、开发门槛高:对于数据同学来说,不仅要求掌握使用大数据技术(Spark、Flink)开发数据表,还要求熟悉高性能微服务的构建;
2、开发成本高:开发微服务功能多、流程多,时间成本高;
3、烟囱建设:不同业务之间的数据需求,容易导致重复建设;
4、运维保障难度大:数据服务线上变更,流程繁琐,运维成本高;
图2:传统数据服务发展问题
一站式自助数据服务平台
基于以上问题,快手提出了Havok平台,这是一个一站式自助数据服务平台,以达到提高效率的目的。 平台可以帮助用户零门槛创建、管理和运营API数据服务。 它采用“配置即开发”的设计理念,允许用户通过配置生成API数据服务。 用户只需要根据自己的业务逻辑配置API,无需编写任何代码。 其他技术相关的复杂实现包括数据服务代码生成、数据服务部署、缓存管理、服务降级、服务权限控制等均由平台完成。 Havok平台真正实现了“数据复用而不是重复”,这也大大降低了创建API服务的门槛,提高了API服务开发的效率。
图3:一站式自助数据服务平台
Havok平台包括两个重要模块:1)服务生成引擎,自动高效地生产数据服务并进行热部署; 2)服务调用模块,支持高可用、高性能的数据服务。
图4:Havok平台技术架构
高可用保障体系构建
快手Havok平台经历了春节、元旦、电商节等众多大型活动的考验。 达到了零故障的预期效果,并制定了高可用保障系统建设方案。
高可用性保障挑战
Havok与普通的服务保障有很大不同,面临的挑战和困难也有很大不同。 Havok作为生产服务平台,面临以下挑战:
服务多样:平台非常庞大,承载上千种不同类型的服务,总QPS达到千万级;
业务重要:大部分业务都是线上业务,直接影响直播、电商、广告等,此类场景对服务本身的可用性要求非常高;
外部依赖:外部依赖较多,整体风险指数成倍增加,容易因依赖问题造成服务雪崩;
特殊保障:“千人一面”的情况下存在业务保障需求,平台需要具备提供定制化保障的能力;
图5:构建高可用保障系统的挑战
高可用保障方案
针对上述挑战,快手提出了整体解决方案,包括事前主动预防问题、事中及时发现问题(故障)、事后快速解决问题(止损)等多个维度:
图6:安防系统建设方案
关键支持能力
分级隔离
快手数据服务业务要求不同业务不能互相影响,同一业务内不同优先级的任务不能互相影响。 因此,Havok按照业务+优先级(中、中、低)的组合粒度来划分服务时隙,并进行硬隔离。 另外,同一舱内的多个服务可以混合部署,称为软隔离,提高服务资源的整体利用率。
图7:分层隔离(硬隔离、软隔离)
灵活的服务
Havok平台依托容器云,可以根据服务负载水平动态伸缩。 另外,数据服务是轻量级的“虚拟”服务,可以动态热部署、动态迁移,从而更灵活地控制整体服务槽位的负载水平。
图8:弹性服务
链接分类
Havok平台将业务链路分为核心链路和次要链路。 核心链路要求高可用性、高安全性,依赖较少,降低风险。 次要链路具有较多的外部依赖性,允许存在故障风险,但必须有完整的降级计划,不能影响核心链路。 对于核心链路和次要链路,Havok平台积累了通用的容错策略,并赋能所有API服务。 常见的策略包括指数退避重试、降级服务节点、支撑数据等。
图9:链接分类
容灾
为了实现更好的容灾能力,Havok平台引入了多种策略,分为服务容灾和数据容灾。 业务容灾保证业务本身始终可用,包括多个机房的建设、主备存储集群的建设、异构存储集群的冷备份等。 异构存储集群冷备可以在某种类型的存储不可用时将数据切换到其他类型的存储介质,从而提供降级的在线请求访问能力。 数据容灾包括引入数据质量检查和数据多版本(通过控制版本指针进行快速切换,恢复到健康正确的数据版本),从而保证业务访问数据的正确性。
图10:容灾建设
限流降级
下图总结了Havok平台的整个链路,并在每个链路中设置了相应的限流和降级方法,以应对活动期间的异常情况,例如抢红包的瞬时流量影响。 客户端引入可视化配置限流方案,支持多种限流策略。 服务器引入请求采样,控制异常请求,提高可用性。 在外部依赖端引入一键降级,不影响主调用流程。 数据写入降级降低了存储压力,使存储能够更好地处理在线实时读取请求。
图 11:限流退化
总结与展望
图 12:支持零故障的大型活动
Havok平台零故障支撑了春节、元旦、电商节等重要大型活动,保障核心服务数量达到100个,QPS达到200W。 平台积累了多种支撑能力。 无论是现有的数据服务,还是未来创建的API服务,平台能力都可以复用,避免重复支撑建设,为企业节省大量人力成本。
图13:智能高可用保障建设
未来,Havok平台将朝着不断积累通用能力的方向发展。 未来,活动保障也将基于日益丰富的平台进行,事半功倍; 活动涉及的临时担保方式也将不断细化。 、抽象并融入平台本身。 未来,平台保障体系的建设将更加智能化、自动化,从而将平台本身的可用性提升到一个新的水平。
作者简介:倪顺,曾就职于Hulu,从事视频领域大数据研发,包括视频播放质量的数据建设以及数据驱动播放体验提升。 目前就职于快手,从事数据中心领域,主要负责基于大数据服务的基础平台建设。
快手数据工厂团队介绍:
快手核心大数据中台团队为全公司打造行业领先的智能大数据生产和服务平台,赋能各业务线快手点赞自助平台有哪些,提升公司数据创新效率。 目前方向包括数据开发工具链(数据开发平台、大规模工作流调度、全链路质检平台)、数据流工具链(异构数据交换与同步、实时开发平台)、数据服务工具链(智能指标模型平台、百万级并发数据服务平台)、数据治理工具链(全链路元数据平台、数据治理平台、数据地图、数据安全平台)。
发表评论