Spring Cloud Alibaba 也是一套微服务解决方案,包含开发分布式应用微服务的必需组件,方便开发者通过 Spring Cloud 编程模型轻松使用这些组件来开发分布式应用服务,只需要添加一些注解和少量配置,就可以将 Spring Cloud 应用接入阿里微服
务解决方案,通过阿里中间件来迅速搭建分布式应用系统。
开源组件
- Nacos:一个更易于构建云原生应用的动态服务发现、配置管理和服务管理平台。
- Sentinel:把流量作为切入点,从流量控制、熔断降级、系统负载保护等多个维度保护服务的稳定性。
- RocketMQ:开源的分布式消息系统,基于高可用分布式集群技术,提供低延时的、高可靠的消息发布与订阅服务。
- Dubbo:高性能 Java RPC远程调用服务框架
- Seata:阿里巴巴开源产品,一个易于使用的高性能微服务分布式事务解决方案
- Arthas:开源的Java动态追踪工具,基于字节码增强技术,功能非常强大
商业化组件
- Alibaba Cloud ACM:一款在分布式架构环境中对应用配置进行集中管理和推送的应用配置中心产品
- Alibaba Cloud OSS:阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的云存储服务
- Alibaba Cloud SchedulerX:阿里中间件团队开发的一款分布式任务调度产品,提供秒级、精准的定时(基于 Cron 表达式)任务调度服务。
集成 Spring Cloud 组件
Spring Cloud Alibaba 作为整套的微服务解决组件,只依靠目前阿里的开源组件是不够的,更多的是集成当前的社区组件,所以 Spring Cloud Alibaba 可以集成 Zuul,GateWay等网关组件,也可继承Ribbon、OpenFeign等组件
1. Nacos
Nacos (Dynamic Naming and Configuration Service)是阿里巴巴开源的一个针对微服务架构中服务发现、配置管理和服务管理平台。Nacos就是注册中心+配置中心的组合(Nacos=Eureka + Config + Bus)
- 官网:https://nacos.io 下载地址:https://github.com/alibaba/Nacos
- Nacos功能特性:服务发现与健康检查、动态配置管理、动态DNS服务、服务和元数据管理(管理平台的角度,nacos有ui页面,可以看到注册的服务及其实例信息(元数据信息)等),动态的服务权重调整、动态服务优雅下线
- Nacos 单例服务部署
- 下载解压安装包,执行命令启动(我们使用最近比较稳定的版本 nacos-server-1.2.0.tar.gz)
linux/mac:sh startup.sh -m standalone
windows:cmd startup.cmd
- 访问nacos控制台:或者 http://127.0.0.1:8848/nacos/index.html(默认端口8848,账号和密码 nacos/nacos)
- 微服务注册到Nacos
- 在父pom中引入SCA依赖
<!--SCA -->
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-alibaba-dependencies</artifactId>
<version>2.1.0.RELEASE</version>
<type>pom</type>
<scope>import</scope>
</dependency
- 在商品服务提供者工程中引入nacos客户端依赖,必须删除eureka-client依赖
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-starter-alibaba-nacos-discovery</artifactId>
</dependency>
- application.yml修改,添加nacos配置信息,在yml文件中需要删除调用config和eureka相关的配置,否则启动失败
spring:
cloud:
nacos:
discovery:
server-addr: 127.0.0.1:8848 #nacos server 地址
- 启动商品微服务,观察nacos控制台 ,如果扫描不到再启动类添加注解@SpringBootApplication(scanBasePackages = "com.rf")
- 保护阈值:可以设置为0-1之间的浮点数,它其实是一个比例值(当前服务健康实例数/当前服务总实例数)
一般流程下,nacos是服务注册中心,服务消费者要从nacos获取某一个服务的可用实例信息,对于服务实例有健康/不健康状态之分,nacos在返回给消费者实例信息的时候,会返回健康实例。这个时候在一些高并发、大流量场景下会存在一定的问题
如果服务A有100个实例,98个实例都不健康了,只有2个实例是健康的,如果nacos只返回这两个健康实例的信息的话,那么后续消费者的请求将全部被分配到这两个实例,流量洪峰到来,2个健康的实例也扛不住了,整个服务A 就扛不住,上游的微服务也会导致崩溃,产生雪崩效应。
保护阈值的意义在于 当服务A健康实例数/总实例数 < 保护阈值 的时候,说明健康实例真的不多了,这个时候保护阈值会被触发(状态true),nacos将会把该服务所有的实例信息(健康的+不健康的)全部提供给消费者,消费者可能访问到不健康的实例,请求失败,但这样也比造成雪崩要好,牺牲了一些请求,保证了整个系统的一个可用。
- 负载均衡Nacos客户端引入的时候,会关联引入Ribbon的依赖包,我们使用OpenFiegn的时候也会引入Ribbon的依赖,Ribbon包括Hystrix都按原来方式进行配置即可
- Nacos 数据模型(领域模型)
- Namespace:命名空间,对不同的环境进行隔离,比如隔离开发环境、测试环境和生产环境
- Group:分组,将若干个服务或者若干个配置集归为一组,通常习惯一个系统归为一个组)
- Service:某一个服务,比如商品微服务
- DataId:配置集或者可以认为是一个配置文件
概念 | 描述 |
Namespace | 代表不同的环境,如开发dev、测试test、生产环境prod |
Group | 代表某项目,比如拉勾云项目 |
Service | 某个项目中具体xxx服务 |
DataId | 某个项目中具体的xxx配置文件 |
Namespace + Group + Service 如同 Maven 中的GAV坐标,GAV坐标是为了锁定Jar,而这里是为了锁定服务
Namespace + Group + DataId 如同 Maven 中的GAV坐标,GAV坐标是为了锁定Jar,而这里是为了锁定配置文件
Nacos 配置中心
- 去Nacos server中添加配置信息
- 改造具体的微服务,使其成为Nacos Config Client,能够从Nacos Server中获取到配置信息
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-starter-alibaba-nacos-config</artifactId>
</dependency>
锁定 Nacos Server 中的配置文件(dataId):通过 Namespace + Group + dataId 来锁定配置文件,Namespace不指定就默认public,Group不指定就默认 DEFAULT_GROUP
- dataId 的完整格式如下 ${prefix}-${spring.profile.active}.${file-extension}
- prefix 默认为 spring.application.name 的值,也可以通过配置项spring.cloud.nacos.config.prefix 来配置。
- spring.profile.active 即为当前环境对应的 profile。 注意:当 spring.profile.active为空时,对应的连接符 - 也将不存在,dataId 的拼接格式变成 ${prefix}.${file-extension}
-
file-exetension 为配置内容的数据格式,可以通过配置项spring.cloud.nacos.config.file-extension 来配置。目前只支持 properties 和 yaml 类型
spring: cloud: nacos: discovery: server-addr: 127.0.0.1:8848 #nacos server 地址 config: server-addr: 127.0.0.1:8848 namespace: 26ae1708-28de-4f63-8005-480c48ed6510 #命名空间的ID group: DEFAULT_GROUP #如果使用的默认分组,可以不设置 file-extension: yaml # 根据规则拼接出来的dataId效果:lagou-service-page.yaml ext-config[0]: data-id: abc.yaml group: DEFAULT_GROUP refresh: true #开启扩展dataId的动态刷新 ext-config[1]: data-id: def.yaml group: DEFAULT_GROUP refresh: true #开启扩展dataId的动态刷新
2. Sentinel 分布式系统的流量防卫兵
2.1 Sentinel 介绍
Sentinel是一个面向云原生微服务的流量控制、熔断降级组件,用于替代Hystrix解决服务雪崩、服务降级、服务熔断、服务限流等问题
- Hystrix需要自己搭建监控平台,没有提供UI界面进行服务熔断降级等处理,使用注解@HystrixCommand参数进行设置,存在代码入侵问题
- Sentinel独立可部署Dashboard/控制台组件(其实就是一个jar文件,直接运行即可),减少代码开发,通过UI界面配置即可完成细粒度控制
- Sentinel构成
- 核心库:(Java 客户端)不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo /Spring Cloud 等框架也有较好的支持
- 控制台:(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等应用容器
- Sentinel 特点
- 丰富的应用场景:Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景,例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用
应用等。 - 完备的实时监控:Sentinel 同时提供实时的监控功能。您可以在控制台中看到接入应用的单台机器秒级数据,甚至 500 台以下规模的集群的汇总运行情况
- 广泛的开源生态:Sentinel 提供开箱即用的与其它开源框架/库的整合模块,例如与 SpringCloud、Dubbo的整合。您只需要引入相应的依赖并进行简单的配置即可快速地接入 Sentinel。
- 完善的 SPI 扩展点:Sentinel 提供简单易用、完善的 SPI 扩展接口。您可以通过实现扩展接口来快速地定制逻辑。例如定制规则管理、适配动态数据源等。
-
Sentinel 的主要特
- Sentinel 部署
- 下载地址:https://github.com/alibaba/Sentinel/releases 我们使用v1.7.1
- 启动:java -jar sentinel-dashboard-1.7.1.jar &
- 访问localhost:8080,用户名/密码:sentinel/sentinel
- 服务改造
在我们已有的业务场景中,“静态化微服务”调用了“商品微服务”,我们在静态化微服务进行的熔断降级等控制,那么接下来我们改造静态化微服务,引入Sentinel核心包。
<!--sentinel 核心环境 依赖-->
<dependency>
<groupId>com.alibaba.cloud</groupId>
<artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>
- application.yml修改(配置sentinel dashboard,暴露断点依然要有,删除原有hystrix配置,删除原有OpenFeign的降级配置)
cloud:
nacos:
discovery:
server-addr: 127.0.0.1:8848 #nacos server 地址
config:
server-addr: 127.0.0.1:8848
namespace: 26ae1708-28de-4f63-8005-480c48ed6510 #命名空间的ID
group: DEFAULT_GROUP #如果使用的默认分组,可以不设置
file-extension: yaml
# 根据规则拼接出来的dataId效果:lagou-service-page.yaml
sentinel:
transport:
dashboard: 127.0.0.1:8080
port: 8719
- 上述配置之后,启动静态化微服务,使用 Sentinel 监控静态化微服务
- 此时我们发现控制台没有任何变化,因为懒加载,我们只需要发起一次请求触发即可
- Sentinel 流量规则模块
- 资源:可以是 Java 应用程序中的任何内容,例如,由应用程序提供的服务,或由应用程序调用的其它应用提供的服务,甚至是一段代码。我们请求的API接口就是资源
- 规则:围绕资源的实时状态设定的规则,可以包括流量控制规则、熔断降级规则以及系统保护规则。所有规则可以动态实时调整
- 资源名:默认请求路径
- 针对来源:Sentinel可以针对调用者进行限流,填写微服务名称,默认default(不区分来源)
- 阈值类型/单机阈值
- QPS:(每秒钟请求数量)当调用该资源的QPS达到阈值时进行限流
- 线程数:当调用该资源的线程数达到阈值的时候进行限流(线程处理请求的时候,如果说业务逻辑执行时间很长,流量洪峰来临时,会耗费很多线程资源,这些线程资源会堆积,最终可能造成服务不可用,进一步上游服务不可用,最终可能服务雪崩)
- 是否集群:是否集群限流
- 流控模式
- 直接:资源调用达到限流条件时,直接限流
- 关联:关联的资源调用达到阈值时候限流自己
- 链路:只记录指定链路上的流量
- 流控效果:
- 快速失败:直接失败,抛出异常
- Warm Up:根据冷加载因子(默认3)的值,从阈值/冷加载因子,经过预热时长,才达到设置的QPS阈值
- 排队等待:匀速排队,让请求匀速通过,阈值类型必须设置为QPS,否则无效
- 流控模式之关联限流
关联的资源调用达到阈值时候限流自己,比如用户注册接口,需要调用身份证校验接口(往往身份证校验接口)如果身份证校验接口请求达到阈值,使用关联,可以对用户注册接口进行限流。
package com.rf.controller;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
@RestController
@RequestMapping("/user")
public class UserController {
/**
* 用户注册接口
* @return
*/
@GetMapping("/register")
public String register() {
System.out.println("Register success!");
return "Register success!";
}
/**
* 验证注册身份证接口(需要调用公安户籍资源)
* @return
*/
@GetMapping("/validateID")
public String validateID() {
System.out.println("validateID");
return "ValidateID success!";
}
}
模拟密集式请求/user/validateID验证接口,我们会发现/user/register接口也被限流了
- 流控模式之链路限流链路指的是请求链路(调用链:A-->B--C,D-->E-->C)
链路模式下会控制该资源所在的调用链路入口的流量。需要在规则中配置入口资源,即该调用链路入口的上下文名称。
来自入口 Entrance1 和 Entrance2 的请求都调用到了资源 NodeA ,Sentinel 允许只根据某个调用入口的统计信息对资源限流。比如链路模式下设置入口资源为 Entrance1 来表示只有从入口Entrance1 的调用才会记录到 NodeA 的限流统计当中,而不关心经 Entrance2 到来的调用。
- 流控效果之Warm up
当系统长期处于空闲的情况下,当流量突然增加时,直接把系统拉升到高水位可能瞬间把系统压垮,比如电商网站的秒杀模块。通过 Warm Up 模式(预热模式),让通过的流量缓慢增加,经过设置的预热时间以后,到达系统处理请求速率的设定值。Warm Up 模式默认会从设置的 QPS 阈值的 1/3 开始慢慢往上增加至 QPS 设置值
- 流控效果之排队等待排队
等待模式下会严格控制请求通过的间隔时间,即请求会匀速通过,允许部分请求排队等待,通常用于消息队列削峰填谷等场景。需设置具体的超时时间,当计算的等待时间超过超时时间时请求就会被拒绝。很多流量过来了,并不是直接拒绝请求,而是请求进行排队,一个一个匀速通过(处理),请求能等就等着被处理,不能等(等待时间>超时时间)就会被拒绝
例如,QPS 配置为 5,则代表请求每 200 ms 才能通过一个,多出的请求将排队等待通过。超时时间代表最大排队时间,超出最大排队时间的请求将会直接被拒绝。排队等待模式下,QPS 设置值不要超
过 1000(请求间隔 1 ms)
- Sentinel 降级规则
模块流控是对外部来的大流量进行控制,熔断降级的视角是对内部问题进行处理。Sentinel 降级会在调用链路中某个资源出现不稳定状态时(例如调用超时或异常比例升高),对这个资源的调用进行限制,让请求快速失败,避免影响到其它的资源而导致级联错误。当资源被降级后,在接下来的降级时间窗口之内,对该资源的调用都自动熔断,这里的降级其实是Hystrix中的熔断。
降级策略
Sentinel不会像Hystrix那样放过一个请求尝试自我修复,就是明明确确按照时间窗口来,熔断触发后,时间窗口内拒绝请求,时间窗口后就恢复。
- RT(平均响应时间 ):当 1s 内持续进入 >=5 个请求,平均响应时间超过阈值(以 ms 为单位),那么在接下的时间窗口(以 s 为单位)之内,对这个方法的调用都会自动地熔断(抛出 DegradeException)。Sentinel 默认统计的 RT 上限是 4900 ms,超出此阈值的都会算作 4900 ms,若需要变更此上限可以通过启动配置项 -Dcsp.sentinel.statistic.max.rt=xxx 来配置。
- 异常比例:当资源的每秒请求量 >= 5,并且每秒异常总数占通过量的比值超过阈值之后,资源进入降级状态,即在接下的时间窗口(以 s 为单位)之内,对这个方法的调用都会自动地返回。异常比率的阈值范围是[0.0, 1.0] ,代表 0% - 100%。
- 异常数:当资源近 1 分钟的异常数目超过阈值之后会进行熔断。注意由于统计时间窗口是分钟级别的,若timeWindow 小于 60s,则结束熔断状态后仍可能再进入熔断状态,时间窗口 >= 60s。