【Java高级工程师蜕变之路】070 分布式服务治理之服务熔断

服务熔断

什么是服务熔断

牺牲局部,保存整体的措施叫做熔断。

不采取熔断的后果,例子:

image-20220412134933476

一旦下游服务C变的不可用,积压了大量请求,服务B的请求也会随之阻塞。

线程资源逐渐耗尽,使得服务B也变的不可用。紧接着,服务A也会变得不可用,整个服务链路被拖垮。

image-20220412135224506

这种调用链路的连锁故障,叫做雪崩。

熔断机制

可以采用熔断机制来解决上面的问题。

image-20220412135744686

需要注意两点:

  1. 开启熔断

    在固定时间窗口内,接口调用超时比例达到一个阈值,会开启熔断。

    进入熔断状态后,后续对该服务的调用,不再经过网络,而是调用本地的默认方法,达到服务降级的效果。

  2. 熔断恢复

    熔断不是永久的,经过了熔断超时时间之后,服务将从熔断状态恢复,再次接受调用方的远程调用。

熔断机制的实现
  1. Spring Cloud Hystrix

    Spring Cloud Hystrix是基于Netflix的开源框架Hystrix实现的,该框架实现了服务熔断、线程隔离等一系列服务保护功能。

    对熔断机制的实现,Hystrix设计了三种状态:

    • 熔断关闭状态(Closed)

      服务没有故障时,熔断器所处的状态,对调用方的调用不作任何限制。

    • 熔断开启状态(Open)

      在固定时间内,Hystrix默认是10s,接口调用出错比例达到一个阈值,Hystrix默认是50%,就会进入熔断状态。

      进入熔断状态后,后续对该服务接口的调用,不再经过网络,而是调用本地的fallback方法。

    • 半熔断状态(Half-Open)

      在进入熔断开启状态一段时间后,Hystrix默认是5s,容器会进入半熔断状态。

      半熔断状态尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。如果成功率达到预期,说明服务已经恢复,提前进入熔断关闭状态。如果成功率依然很低,则重新进入熔断开启状态。

    三个状态的转化关系如下:

    image-20220412143208192

  2. Sentinel

    https://github.com/alibaba/Sentinel

    Sentinel和Hystrix的原则是一致的:当调用链路中,某个资源出现不稳定,例如,表现为timeout,异常比例升高的时候,则对这个资源的的调用进行限制,并让请求快速失败,避免影响到其他资源,导致最终产生雪崩。

    Sentinel的熔断手段:

    • 通过并发线程数进行限制
    • 通过响应时间对资源进行降级
    • 系统负载保护