问题现象:(时:2023/7/18)
ddc运营操作平台dns相关模块(DNS运营管理/DNS门户运营)反馈有问题:DDC运营管理系统 DNS门户运营-财务管理,点击“提现管理和发票管理”提示请求地址不存在。官方ddc的openresty执行reload后恢复正常,数次皆如此。
服务调用关系分析:
openrestry配置{service:ddc运营服务} proxy_pass到 (http://operation-dns.bsnbase.com/ops-dns.bsnbase.com) ---> 阿里云解析cname(ddcbase-eks-kongingress-alb-1098712478.cn-northwest-1.elb.amazonaws.com.cn) ---> EKS(kong ingress ---> ddcdns-app)
诊断:
1、后台ddcdns 应用正常
2、通过命令行和kibana查看reload之前的9:00-10:00 之间kong ingress日志 带dnsoperation status均为200
kubectl logs -f --tail=500000 -n kong -l app=ingress-kong -c proxy | grep dnsoperation | grep -v '"upstream_status":"200"'
3、openresty operation server日志在故障窗口dnsoperation/dnsoperationofficial 报404
根据以上信息,判断问题出在openresty到ALB之间。
4、本地解析ops-dns.bsnbase.com域名
>nslookup ops-dns.bsnbase.com
非权威应答:
名称: ddcbase-eks-kongingress-alb-1098712478.cn-northwest-1.elb.amazonaws.com.cn
Addresses: 52.83.107.42
52.83.241.208
161.189.236.65
发现: openresty中404的"upstream_addr":"52.83.211.192:80"等,不在解析结果之中。
证明:1、ALB解析地址池中的ip会变 2、openresty可能缓存了之前的记录,不会及时刷新。
分析:
nginx的解析机制 Using DNS for Service Discovery with NGINX and NGINX Plus
- Nginx 在启动/重载的时候回去解析转发的域
- 如果域名无法解析 Nginx 就无法启动
- 只有下次重启/重载的时候才会重新去解析,启动后无视TTL
解决方案:(选择方案三)
方案一:每次dns有变化,重启Nginx
方案二:aws提供:配置一个包含alb的目标组,通过新建一个nlb去连接到这个目标组,就可以实现。缺点是aws的nlb需要额外收费。
方案三:nginx resolver [http://nginx.org/en/docs/http/ngx_http_core_module.html#resolver]
Syntax: resolver address ... [valid=time] [ipv4=on|off] [ipv6=on|off] [status_zone=zone];
Default: —
Context: http, server, location
实际解决配置: (配置好后reload openresty验证)
server {
……(略,加下面)
resolver 114.114.114.114 8.8.8.8 valid=30s ipv6=off;
resolver_timeout 3s;
set $IPS1 "operation-dns.bsnbase.com";
set $IPS2 "ops-dns.bsnbase.com";
location / {
……(略)
include /etc/nginx/conf.d/share-proxy.conf;
proxy_pass http://operation;
}
#转发到DNS官方运营
location ^~ /api/dnsoperationofficial {
……(略)
rewrite ^/api/(.*)$ /$1 break;
proxy_pass http://$IPS1;
}
#转发到DNS运营
location ^~ /api/dnsoperation {
……(略)
rewrite ^/api/(.*)$ /$1 break;
proxy_pass http://$IPS2;
}
location ~* /api/ {
……(略)
rewrite /api/(.*)$ /$1 break;
include /etc/nginx/conf.d/share-proxy.conf; #0609
proxy_pass http://ddcoperationbackend;
}
}
参考链接:
https://liyangliang.me/posts/2016/04/nginx-aws-elb-name-resolution/ Nginx AWS ELB 域名解析
https://developer.aliyun.com/article/1245012 记一次Nginx DNS缓存导致转发问题
https://ms2008.github.io/2018/01/09/nginx-resolver/ NGINX resolver 配置中的 "坑"
https://blog.kelu.org/tech/2022/03/03/nginx-cache-dns-while-using-upstream.html Nginx 缓存 DNS 解析问题
http://nginx.org/en/docs/http/ngx_http_core_module.html#resolver 官方文档