7月27日,2021可信云大会在北京召开。会上,阿里云故障演练平台入选可信云最佳技术实践,并首批通过可信云混沌工程平台能力要求最高等级-先进级认证。同时,由信通院牵头,阿里云计算有限公司联合多家企业共同发起的“混沌工程实验室”宣布成立。

lALPDgfLSAcLsDLNBTXNB9Y_2006_1333.png_720x720g.jpg

双项认证,阿里云故障演练平台获可信云最高等级认证

随着企业对于云计算的理解和实践不断深入,基于云计算的分布式架构成为越来越多企业应用构建的首选方案,如何通过混沌工程提升云原生系统稳定性和保障业务连续性成为业内普遍关注的话题。 ​

混沌工程是主要通过故障注入的方式,提前发现系统稳定性等问题,旨在提升系统和组织韧性,打造韧性的架构,保障业务连续性。在信通院可信云混沌工程平台测评中,阿里云故障演练平台以最高分成绩通过资源支持、故障场景、场景管理、实验流程、实验防护、实验度量、权限管理、安全审计等8项能力测评,并入选2021可信云最佳技术实践,双项认证,再一次证明了阿里云在混沌工程领域的技术和产品实力。 ​

图片 1.png

故障演练随着阿里巴巴系统架构从微服务,到容器化,再到云原生一起发展,内部已有近10年的混沌工程落地实践经验。阿里云故障演练平台将阿里巴巴内部的实践经验以产品化的方式对外输出,提供丰富的实验场景和专家经验库、领域化的解决方案,满足用户的故障场景需求,在灵活的流程编排和开放的集成能力下,提供监控、报告等实现混沌工程实施闭环,通过权限管控和演练防护来控制故障演练的风险,帮助企业在云迁移、云就绪、云原生过程中提升系统稳定性和业务连续性。 ​

2.png

自混沌工程理论提出以来,很多企业在探索和实践,但落地形式不同,阿里云故障演练平台有何不同? ​

  • 灵活的流程编排:制订了一套标准化的演练流程,在此基础上可以添加所需的流程节点。同时支持多场景的运行方式。
  • 可视化故障演练:与架构感知集成,在架构拓扑可视化的基础上,实现故障注入,同时可以配合架构巡检,发现系统风险点,使用故障演练进行验证。
  • 多样的专家经验库:将阿里巴巴内部多年的故障演练经验沉淀到演练模板中,具备演练场景的真实性和实用性,极大的提升演练创建的效率,同时解决用户上手混沌工程难的问题。
  • 领域化的解决方案:提供对服务组件、系统架构等稳定性验证的产品化解决方案,通过架构感知、依赖分析等动态识别组件和架构,自动生成演练方案,达到快、准、全的演练目的。

使用故障演练平台做混沌工程,可以衡量微服务的容错能力,估算系统容错红线,衡量系统容错能力。并且,故障演练平台可以验证容器编排配置是否合理,测试PaaS层是否健壮,验证监控告警的时效性,提升监控告警的准确和时效性。通过故障突袭,随机对系统注入故障,考察相关人员对问题的应急能力,以及问题上报、处理流程是否合理,达到以战养战,锻炼人定位与解决问题的能力。通过故障注入的方式,提前发现系统稳定性等问题,旨在提升系统和组织韧性,打造韧性的架构,保障业务连续性。 ​

阿里云故障演练平台自2019年商业化以来,通过多样化的实验工具,自动化的工具部署,多维度的演练方式,灵活的流程编排,丰富的故障场景,实用的演练模板,专业的解决方案,安全的演练防护,深度的云产品集成,已经拥有近千个企业客户,服务了包括华泰证券、比心科技、亲宝宝等客户,助力企业在云原生时代构建数字韧性能力。 ​

推动标准统一,打造ChaosBlade 开源项目,缩短构建混沌工程路径

近几年,越来越多的企业开始关注并探索混沌工程,渐渐成为测试系统高可用,构建对系统信息不可缺少的工具。但混沌工程领域目前还处于一个快速演进的阶段,最佳实践和工具框架没有统一标准。实施混沌工程可能会带来一些潜在的业务风险,经验和工具的缺失也将进一步阻止 DevOps 人员实施混沌工程。混沌工程领域目前也有很多优秀的开源工具,分别覆盖某个领域,但这些工具的使用方式千差万别,其中有些工具上手难度大,学习成本高,混沌实验能力单一,使很多人对混沌工程领域望而却步。 ​

阿里巴巴集团在混沌工程领域已经实践多年,为了帮助企业更好地构建混沌工程路径,阿里巴巴在2019年开源了混沌工程项目 ChaosBlade,并在今年成为 CNCF Sandbox 项目。将"自研技术"、"开源项目"、"商业产品"形成统一的技术体系,阿里云通过三位一体的正向循环,实现了技术价值的最大化。 ​

ChaosBlade 是一款遵循混沌工程原理的开源工具,包含混沌工程实验工具 chaosblade 和混沌工程平台 chaosblade-box,旨在通过混沌工程帮助企业解决云原生过程中高可用问题。实验工具 chaosblade 支持 3 大系统平台,4 种编程语言应用,共涉及 200 多个实验场景,3000 多个实验参数,可以精细化地控制实验范围。ChaosBlade 已成为阿里云故障演练平台基础能力底座服务众多企业客户。 ​

3.png

未来,ChaosBlade 将继续以云原生为基础,提供面向多集群、多环境、多语言的混沌工程平台和混沌工程实验工具;后续会托管更多的混沌实验工具和兼容主流的平台,实现场景推荐,提供业务、系统监控集成,输出实验报告,在易用的基础上完成混沌工程操作闭环。 ​

业内首个混沌工程实验室正式成立,推动混沌工程实践落地

在数字化产业对系统稳定性和云计算高可用要求越来越高的大背景下,由中国信通院牵头,阿里云等众多企业共同参与的混沌工程实验室正式成立。混沌工程实验室将推动混沌工程在各领域典型应用场景中的实践落地,联动云计算上下游企业来共同推进混沌工程快速发展。 ​

阿里云拥有国内最丰富的混沌工程实践经验,并致力于打造云原生时代的混沌工程标准体系。阿里云在海量互联网服务以及历年双11场景的实践过程中,沉淀出了包括全链路压测、线上流量管控、故障演练等高可用核心技术,并通过开源和云上服务的形式对外输出,以帮助企业用户和开发者享受技术红利,提高开发效率,缩短业务的构建流程。 ​