Nginx 的 upstream 模块中 max_fails 及 fail_timeout,这两个指令,分别是配置关于负载均衡过程中,对于上游(后端)服务器的失败尝试次数和不可用时间 官网文档中解释 max_fails 是指在 fail_timeout 配置的时间内,服务器通信失败的次数,默认为1,即在 fail_timeout 时间内,1次请求失败即不再尝试,将请求根据 hash 规则,转发到下一个上游服务

fail_timeout 有两种含义:

  • 当已经确认上游服务不可用时,是指与上游服务器通信失败次数的时间

  • 服务器不可用的时间段

默认是10s

建个简单环境: Nginx PHP-FPM(x2) nginx 通过 fast-cgi 将 php 请求转发到 PHP-FPM,这里 PHP-FPM 服务即上游服务,设置 upstream,负载 PHP-FPM

省略过程

过了 fail_timeout 的时间后,Ngxin 会再次将请求发往 FPM-PHP1 进行尝试,尝试2次失败后,在 fail_timeout 时间内,不会再将请求分发

这里有几个误区:

  • Nginx 记录了连接上游失败,这个请求就返回错误请求,或这个请求丢失没处理 这个理解是错误的,Nginx 只是记录了失败的请求到日志,并将这个请求又转发到了可用的其他上游服务,知道所有上游都不可用时,才会返回错误状态

  • max_fails 是指连续请求失败的次数 max_fails 是在 fail_timeout 指定的时间内的失败次数,请求还是按照配置的负载均衡算法来走,并不是第一次请求失败之后,继续将这个请求在尝试一次,达到失败次数之后,标记为不可用

  • fail_timeout 越短越好 当访问量大的时候,fail_timeout 设置太短,会导致不断的尝试与不可用上游的连接,耗费大量的 tcp 资源进行连接

  • fail_timeout 越长越好 当访问量大的时候,fail_timeout设置太长,会导致负载不均衡,有可能会击穿某个上游后端,达不到负载的效果。