所谓容错机制,举个简单例子,我们在使用电脑的某个程序时,常常会遇到“程序无反应”或“程序未响应”的情况发生,此时这个程序便不能在进行下去,但经常会在过了几秒钟后恢复到正常使用的状态。这种“无反应”或“未响应”几秒钟的错误状态,我们便称之为“容错”。
在分布式系统中常常各个系统之间是一个链路的调用过程,如果链路中的某个节点出现故障,很可能会发生雪崩效应。
比如如果Node3节点发生故障会导致整个分布式系统不可用,这个是不能容忍的。首先设计的时候应用系统之间肯定是要进行隔离,同时也需要有相应的容错机制。
Dubbo一共提供了六种容错机制,可以在Client端调用的时候进行设置:
Failover Cluster(缺省)
失败自动切换,当出现失败,重试其它服务器。通常用于读操作,但重试会带来更长延迟。可通过 retries="2"
来设置重试次数(不含第一次,缺省为2次)。
重试次数配置如下:
或
或
Failfast Cluster
快速失败,只发起一次调用,失败立即报错。通常用于非幂等性的写操作,比如新增记录。
Failsafe Cluster
失败安全,出现异常时,直接忽略。通常用于写入审计日志等操作。
Failback Cluster
失败自动恢复,后台记录失败请求,定时重发。通常用于消息通知操作。
Forking Cluster
并行调用多个服务器,只要一个成功即返回。通常用于实时性要求较高的读操作,但需要浪费更多服务资源。可通过 forks="2"
来设置最大并行数。
Broadcast Cluster
广播调用所有提供者,逐个调用,任意一台报错则报错。通常用于通知所有提供者更新缓存或日志等本地资源信息。
一般查询操作会使用Failover,事务请求会使用Failfast。
配置方式很简单:
参考资料:
https://baike.baidu.com/item/%E5%AE%B9%E9%94%99%E6%9C%BA%E5%88%B6/7141420
http://dubbo.apache.org/zh-cn/docs/user/demos/fault-tolerent-strategy.html