服务治理的实际工作包括两部分:一站式的服务治理平台普适性的服务开发框架。其中一站式的服务治理平台作为服务治理输出的根据地,最重要的作用是服务治理规范的固化。服务治理规范从经验到wiki、从wiki到平台的发展趋势也表明了服务治理规范是业务方和服务治理团队之间一个非常重要的桥梁。

普适性的服务开发框架,是服务治理团队非常重要的一个抓手,平台能做的事情是有限的,而广泛使用的开发框架则可以完成更多的事情。普适性是服务开发框架最重要的优点,如何和业务方结合、提升服务开发框架的普适性非常重要。从内容上看,服务治理具体工作范围可以概括如下。

  • 系统可见性

主要是服务治理平台的工作,具体包含服务静态描述,比如服务基本信息、服务等级、全局依赖拓扑、路由关系、IDL(SDK)、权限、SLA、流量控制策略等,服务治理平台需要有能力帮助我们梳理依赖层级、判定服务等级。服务实时拓扑,具体包括全局流量拓扑、报表审计等,服务治理平台需要有能力展示实时流量状态,基于场景定位线上问题。

  • 系统可操控

打通服务治理平台和服务开发框架,为其他平台输出能力,具体包括路由切换、降级预案等。

  • 系统可追溯

将问题现场进行录制,如流量录制、日志录制等方式,然后使用相应的跟踪和追溯系统,对典型场景下的常见问题进行回放和溯源,做到“一次录制,多次回放”。基于追溯和回放机制,可以解决根因定位、场景分析等问题。

  • 系统可预测

指预测业务接下来一段时间的行为,比如流量、容量、安全等,同时通过各种工具和平台检测系统的潜在风险。以容量规划为例,需要能够预见和判断业务接下来一段时间的增加趋势和运营活动,判断可能的流量峰值以及对系统容量的影响;接下来通过全链路压测、单系统压测等方式探测系统可能的容量风险。

  • 业务全聚焦

服务治理的目的是解决业务的稳定性和效率问题,必须完全聚焦业务,从业务出发,重点解决业务当前的痛点问题。

服务治理本质上来说是解决微服务化后产生的一系列挑战,比如效率治理、稳定性治理、效果治理、性能成本治理等。这些治理举措一般作用于设计开发阶段,我们可以称之为“正向治理”,在服务上线后,可以基于运行时的各种数据,进行综合治理和反馈,从而构成一个治理闭环。

服务治理的工作内容_服务治理

在上述服务治理闭环中,通过多维度的度量数据收集,结合静态的服务元数据信息,构成一个完整的服务治理数据集,然后基于这些数据进行综合度量和分析。根据分析结果会产生相应的控制和管控措施,分别从线上和线下两个维度进行综合治理,同时将治理结果负向反馈回来,作为进一步治理的输入。