作者|白玙 在 2021 杭州·云栖大会现场,阿里云智能云原生应用平台产品负责人李国强以《企业互联网架构转型之道 - 阿里云中间件升级发布》为主题,全面解读阿里云云原生产品创新实践。过去一年中,为应对愈发激烈的行业竞争,重构应用架构已成为大势所趋,据权威机构数据显示,80% 以上的用户已使用或计划使用微服务,超过 68% 的机构在生产环境中使用容器。85% 以上用户使用分布式追踪,监控工具,日志。这些变化都凸显出企业对于应用架构云原生化、部署运维云原生化、稳定性升级的强烈诉求。 阿里巴巴集团作为云原生受益者,通过云原生充分获得云计算技术红利,并实现全球最大规模的云原生实践,所有业务 100% 跑在公共云上,应用 100% 云原生化。基于容器软硬一体优化,在线业务部署百万容器规模,带来 CPU 资源利用率提升 30%、万笔交易成本下降 80%、研发运维效率提升 20% 的技术价值。也是基于此,阿里巴巴将这些最佳实践、解决方案分享给社会,帮助税务、人社、银行、保险、石油石化、零售快消、汽车制造、互联网平台等众多行业挖掘更多社会价值。经过多年技术沉淀,阿里云提供超过 300 款云产品、近千个解决方案。在这其中,消息队列 MQ、应用实时监控服务 ARMS、企业级分布式应用服务 EDAS 等已经成为不少企业在分布式互联网架构中必不可少的组件。而此次云栖大会也首次对外曝光了这些产品的全新特性。
RocketMQ5.0 重磅升级
消息队列作为当代应用的通信基础设施,微服务架构应用的核心依赖,通过异步解耦能力让用户更高效地构建分布式、高性能、弹性健壮的应用程序。就数据与价值角度而言,消息队列的价值不断深化。消息队列中流动的业务核心数据涉及集成传输、分析计算和处理等不同环节与场景。伴随着不断演进,我们可以预见消息队列势必在数据通道、事件集成驱动、分析计算等场景不断产生新价值,创造新的“化学反应”。 此次,阿里云 RocketMQ 发布 5.0 版本全面升级为一站式“消息、事件、流”融合处理平台,并具备以下两大亮点: (1)消息核心场景扩展:覆盖事件驱动与消息流式处理等众多场景; (2)一站式融合处理技术架构迭代:实现一份消息存储支持流式计算、异步投递、集成驱动等多种场。 除去两大亮点的同时,RocketMQ5.0 带来全新三大功能: (1)RocketMQ 基础架构全新升级 轻量版 SDK 的开放和全链路可观测系统的提升 消息级负载均衡 多网络访问支持 海量分级存储 (2)在 Streaming 流式处理场景推出轻量级消息 ETL 功能 轻量无依赖 开发门槛低 Serverless 弹性 (3)EDA 云上最佳实践——事件中心 EventBridge 统一标准化的事件集成生态 全球事件互通网络 Serverless 低代码开发
微服务产品家族再升级
微服务作为如今应用互联网架构重要代表,随着微服务与容器不断融合,可以看到企业对于微服务应用架构与业务要求不断明晰。架构方面,如 Spring Cloud、Dubbo 基于 Java 的微服务体系,以及随着多元趋势出现而逐渐兴起的 Service Mesh 技术体系成为主流。需求方面,业务开发设计面向微服务、软件基础架构原生容器化、应用生产运维升级鸟瞰式成为核心诉求。阿里云通过是微服务引擎 MSE、服务网络 ASM 去完美支撑这两类不同微服务体系。 虚拟化时期的微服务架构下,业务通常采用流量网关 + 微服务网关的两层架构,流量网关负责南北向流量调度和安全防护,微服务网关负责东西向流量调度和服务治理,而在容器和 Kubernetes 主导的云原生时代,Ingress 成为 Kubernetes 生态的网关标准,赋予了网关新的使命,使得流量网关 + 微服务网关合二为一成为可能。 此次,阿里云 MSE 发布的云原生网关在能力不打折的情况下,将两层网关变为一层,不仅可以节省 50% 的资源成本,还可以降低运维及使用成本。MSE 云原生网关依托于 Envoy 和 Istio 进行构建,实现了统一的控制面管控,并直连后端服务,支持了 Dubbo3.0、Nacos,打通阿里云容器服务 ACK,自动同步服务注册信息。 MSE 云原生网关早已在阿里巴巴内部经历千锤百炼。目前已经在支付宝、钉钉、淘宝、天猫、优酷、飞猪、口碑等阿里各业务系统中使用,并经过 2020 双 11 海量请求的考验,大促日可轻松承载每秒数 10 万笔请求,日请求量达到百亿级别。 作为业内首个全托管 Istio 兼容的服务网格产品,阿里云服务网格(简称 ASM)作为统一管理微服务应用流量、兼容Istio的托管式平台,专注打造全托管、安全、稳定、易用的服务网格。支持跨地域多集群、多云混合云服务的统一治理,让无处不在的应用服务轻松跨多种异构计算基础设施进行相互通信。今日更是对外发布 ASM Pro 专业版,覆盖更多应用场景,主要包括:
- 支持 Dubbo 等微服务框架与扩展协议:通过提供更多场景化能力满足客户灰度发布、金丝雀发布、服务流量无损下线、以及全链路灰度等不同诉求。
- 全面融合多种服务注册中心:充分融合 Nacos 服务注册中心的高可用能力、跨注册中心的多语言服务互通、以及高性能、大规模场景支持。
- 云边一体的统一服务网格能力:支持跨地域多集群、多云混合云上的服务的统一治理、支持 ACK Edge 边缘集群,探索边缘计算中服务网格的场景。
- 优化现有应用进行现代化改造:统一支持容器、虚拟机等多种异构计算基础设施的混合部署, 助力虚拟机应用的迁移;增强 OPA 策略动态执行能力,无代码改造实现零信任安全,简化管理多种类型的计算基础设施上的应用。
- 全栈优化:通过操作系统和软硬一体方式降低服务通信时延和加密开销,提升 TLS 加解密的效率及数据面的性能。
通过流量控制、网格观测、服务间通信安全等功能,服务网格 ASM 全方位简化服务治理,为运行在异构计算基础设施上的服务提供统一管理能力,适用于无处不在的 Kubernetes 集群、Serverless Kubernetes 集群、ECS 虚拟机以及自建集群。 最后,微服务应用在开发过程中,需要一个全站式平台覆盖应用架构设计、开发、测试、上线、运维整个体系。一站式云原生应用研发支撑对于用户的提效具备着非凡的意义。因此,云原生应用设计&开发平台 ADD 应运而生,帮助企业快速进行原生开发,以应用视角全生命周期管理云原生应用,并具备以下特性: 一、应用开发&架构设计:实现支持应用架构图的拖拉拽式设计,提供预置及企业自定义应用架构模板。 二、云原生资产商店:为企业提高开箱即用的中间件服务,并沉淀企业的公共业务组件、公共技术中间件,实现企业软件资产的标准化、产品化、分享和复用。 与此同时,企业级分布式应用服务 EDAS v4.0,重新构建用户应用发布与上线的整个流程,实现鸟瞰式运维以及双模治理,助力应用运维现代化,加速在线业务云原生化。
ARMS 3.0 - 企业可观测体系 All in one
作为企业技术架构中的重要组成部分,不同社区、机构对于可观测领域的趋势观点愈发收敛一致:
- 全栈一体化:当一个请求进到业务系统,从前端到应用层到固定资源上,企业如何把整个链路串联起,一体化的将纵向链路与横向数据打通,成为考验运维团队的关键能力。
- 云原生可观测标准化:当可观测开源领域 Grafana、Prometheus、OpenTelemetry成为事实标准,企业搭建云原生可观测体系更加高效、有迹可循。
- AIOps:随着每个企业技术不断扩张,其拥有的运维数据规模与维度不断增加,包括海量指标、logging 以及 tracing数据。AI 在这过程中发挥巨大作用,更快速、更高效的发现、解决异常及问题。 为了满足以上趋势与需求,阿里云发布 ARMS 3.0,帮助企业实现可观测体系 All in one,实现统一接入、统一指标、统一链路、统一计量、统一面板、统一告警。
- 支持 50+ 技术组件,从接入体验、业务应用到基础设施层纵向全链路打通;
- Metric,Logging,Tracing 横向打通,加速问题诊断;
- 全面支持 Prometheus、Grafana、OpenTelemetry 云原生可观测三大开源标准;
- 支持接入 10+ 监控告警系统接入,实现离散告警消息的统一管理,同时结合算法与阿里经验,提供智能降噪和根因分析能力。
值得一提是,阿里云凭借 ARMS 成为国内唯一入选《2021 年 Gartner APM 魔力象限》的云厂商,产品能力和战略愿景获得 Gartner 分析师高度认可。
高可用
高可用家族中的应用高可用服务 AHAS 也进行了一次重大的产品升级,应用高可用服务(Application High Availability Service)专注于提高应用及业务的高可用能力,主要提供流量防护、故障演练、多活容灾三大核心能力。此次升级各模块都在为用户业务的稳定性和韧性方面有了很大的产品提升。 首先在流量防护方面,创新性的提供集群防护功能,帮助客户解决业务单机流量不均、集群小流量等典型集群流控问题。同时网关防护场景下,目前已经支持基于 C/C++ 原生版本的 nginx 插件方案,稳定支持 Sentinel 核心流控及 API 归组能力的同时,性能损耗大大降低,吞吐量损耗 5% 以内,CPU 占用在 0.8 核以内。除此之外,监控告警能力和防护场景化方面都从业务场景维度和易用性维度有了较大的提升与优化。 故障演练(Chaos)是云原生混沌工程平台,提供了大规模、低成本、影响可控、形式多样化的故障演练服务。Chaos 提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。此次故障演练平台也从演练场景、演练形式、易用性和开源兼容等多方面进行了全面的升级。
- 演练场景上,支持 Windows 类型的演练节点;支持预检、断网、恢复、复盘一站式的容灾断网演练;微服务演练也升级至 2.0,支持服务级别的强弱依赖自动化验证。
- 演练形式方面,此次重磅发布可视化演练,支持基于业务架构拓扑一键发起演练。
- 开源兼容性方面,支持社区版在线托管至企业版,且支持一键升级至企业版。
多活容灾(MSHA)方案由业务异地多活容灾解决方案全面升级至业务多活容灾解决方案,更兼容、更稳定、更简单。
兼容更丰富的容灾架构与业务组件。
新增同城双活/多活容灾架构、异地双活容灾架构和异地应用双活容灾架构。新增对 MQTT、ScheduleX、K8S、PolarDB 等组件模块的多活容灾支持。
核心容灾能力加固,稳定性提升 50% 以上。
通过对接入层、服务层、消息层、任务调度层和数据层的多活容灾架构优化和加固,自上而下的的流量穿透优化,容灾能力整体稳定性提升 50% 以上。
同城零改造,异地容灾改造工作量下降 20% 以上。
同城场景下,业务零改造,平均 3h 内完成同城多活容灾业务上线。异地容器业务场景下,依托 pilot 快速集成 agent,大大降低容灾改造成本。 此次全面升级,让业务技术团队有了更多选择,通过简单、丰富、开放和低成本的 PaaS 服务,帮助企业客户更简单、更高效的进行在云上创新,搭建更符合业务需要和团队情况的技术体系