问题现象:(时:2023/7/18
ddc运营操作平台dns相关模块(DNS运营管理/DNS门户运营)反馈有问题:DDC运营管理系统 DNS门户运营-财务管理,点击“提现管理和发票管理”提示请求地址不存在。官方ddc的openresty执行reload后恢复正常,数次皆如此。

服务调用关系分析:

openrestry配置{service:ddc运营服务} proxy_pass到 (http://operation-dns.bsnbase.com/ops-dns.bsnbase.com) ---> 阿里云解析cname(ddcbase-eks-kongingress-alb-1098712478.cn-northwest-1.elb.amazonaws.com.cn) ---> EKS(kong ingress ---> ddcdns-app)

诊断:

1、后台ddcdns 应用正常

2、通过命令行和kibana查看reload之前的9:00-10:00 之间kong ingress日志 带dnsoperation status均为200

kubectl logs -f --tail=500000 -n kong -l app=ingress-kong -c proxy | grep dnsoperation | grep -v '"upstream_status":"200"'

3、openresty operation server日志在故障窗口dnsoperation/dnsoperationofficial 报404

     根据以上信息,判断问题出在openresty到ALB之间。

4、本地解析ops-dns.bsnbase.com域名

>nslookup ops-dns.bsnbase.com
	非权威应答:
	名称:    ddcbase-eks-kongingress-alb-1098712478.cn-northwest-1.elb.amazonaws.com.cn
	Addresses:  52.83.107.42
	          52.83.241.208
          161.189.236.65

     发现: openresty中404的"upstream_addr":"52.83.211.192:80"等,不在解析结果之中。

     证明:1、ALB解析地址池中的ip会变    2、openresty可能缓存了之前的记录,不会及时刷新。

分析:

nginx的解析机制 Using DNS for Service Discovery with NGINX and NGINX Plus

  • Nginx 在启动/重载的时候回去解析转发的域
  • 如果域名无法解析 Nginx 就无法启动
  • 只有下次重启/重载的时候才会重新去解析,启动后无视TTL

解决方案:(选择方案三)

方案一:每次dns有变化,重启Nginx   

方案二:aws提供:配置一个包含alb的目标组,通过新建一个nlb去连接到这个目标组,就可以实现。缺点是aws的nlb需要额外收费。

方案三:nginx  resolver  [http://nginx.org/en/docs/http/ngx_http_core_module.html#resolver]

Syntax:	resolver address ... [valid=time] [ipv4=on|off] [ipv6=on|off] [status_zone=zone];
Default:	—
Context:	http, server, location


实际解决配置: (配置好后reload openresty验证)

server {
	  ……(略,加下面)
	  resolver 114.114.114.114 8.8.8.8 valid=30s ipv6=off;
	  resolver_timeout 3s;
	  set $IPS1 "operation-dns.bsnbase.com";
	  set $IPS2 "ops-dns.bsnbase.com";
	
	  location / {
	        ……(略)
	        include /etc/nginx/conf.d/share-proxy.conf;
	        proxy_pass http://operation;
	  }
	
	  #转发到DNS官方运营
	  location ^~ /api/dnsoperationofficial {
	       ……(略)
	       rewrite                  ^/api/(.*)$    /$1 break;
	       proxy_pass             http://$IPS1;
	  }
	  #转发到DNS运营
	  location ^~ /api/dnsoperation {
	       ……(略)
	       rewrite                  ^/api/(.*)$    /$1 break;
	       proxy_pass             http://$IPS2;
	  }
	  location ~* /api/ {
	       ……(略)
	       rewrite   /api/(.*)$    /$1 break;
	       include /etc/nginx/conf.d/share-proxy.conf;  #0609
	       proxy_pass  http://ddcoperationbackend;
	  }
	}

参考链接:

https://liyangliang.me/posts/2016/04/nginx-aws-elb-name-resolution/    Nginx AWS ELB 域名解析

https://developer.aliyun.com/article/1245012  记一次Nginx DNS缓存导致转发问题

https://ms2008.github.io/2018/01/09/nginx-resolver/   NGINX resolver 配置中的 "坑"

https://blog.kelu.org/tech/2022/03/03/nginx-cache-dns-while-using-upstream.html    Nginx 缓存 DNS 解析问题

http://nginx.org/en/docs/http/ngx_http_core_module.html#resolver  官方文档