文章目录

  • 一、引出问题
  • 二、解决方案
  • 1、使用actuator健康检查
  • 2、项目启动时判断nacos是否正常连接
  • 3、k8s设置探针


一、引出问题

生产项目是用k8s部署的,最近经常遇到启动时注册不到nacos(查找nacos的host地址找不到),或者运行的好好的,突然也连不上nacos了(同样是查找nacos的host地址找不到)。

问题定位到,由于网络或其他问题,导致pod之间的网络出现了问题,导致根据服务名查找pod失败。

解决方案:考虑到几乎无法让pod自行连接上nacos了,所以考虑应用加上actuator健康检查,k8s加上探针,如果应用健康检查不通过,就重启pod。

二、解决方案

1、使用actuator健康检查

引入actuator健康检查,如果nacos注册失败,就重启容器

因为k8s已经支持了健康检查服务,每隔一段时间就会进行健康检查。

这里用到了spring-boot-starter-actuator

启动健康检查之后,访问/actuator/health,会提示UP,如果nacos宕机或者网络连接不上,会提示DOWN,并且返回码是503:

生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退_重启


如果nacos正常的话,status是UP,并且返回码是200:

生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退_后端_02

2、项目启动时判断nacos是否正常连接

项目启动时,如果nacos连接不上,就会在main方法抛出异常:

生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退_后端_03


根源就是调用nacos -server端的api时发生的异常,但是如果捕捉这个异常,就会对业务代码侵入性较强。

好在如果发生了这个异常,就会中断springboot项目的启动,用健康检查就非常的合适,此时健康检查的接口都调用不到。

3、k8s设置探针

参考文档:

官方文档:https://kubernetes.io/zh-cn/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/

目前的k8s健康检查,http请求只能根据响应码来判断,如果想通过json体来判断,恐怕需要自定义一个接口了(或者用正则进行解析)。
但是springboot自带的actuator,是可以根据服务的健康状态返回不同的响应码的。

以下是大模型 给的结果,没验证过:

生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退_Pod_04

生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退_后端_05


生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退_spring boot_06


所以,要加上restartPolicy配置:

在Kubernetes(简称K8s)中,Pod的重启策略定义了当容器失败时kubelet如何处理。有三种主要的重启策略:

Always
这是默认的重启策略。如果设置了为“Always”,那么无论容器停止运行的原因是什么(无论是正常退出还是异常终止),kubelet都会自动重启该容器。这意味着只要Pod尚存在,即使容器连续出错,kubelet也会不断地尝试重启容器。

OnFailure:
如果设置为“OnFailure”,则只有当容器以非0状态退出码结束时,kubelet才会尝试重启该容器。若容器正常退出(即退出码为0),kubelet将不会进行重启操作。

Never:
当设置为“Never”时,kubelet将不会对任何原因导致停止运行的容器进行重启。一旦容器停止,它将保持停止状态,直到手动干预或关联的控制器采取行动。

OnCrash(崩溃时重启)
该策略主要用于DaemonSet中的Pod。只有在节点重启或Pod崩溃后,才会触发Pod的重启。

综上所述,每个Pod中的所有容器共享相同的重启策略,由Pod的spec.restartPolicy字段指定。需要注意的是,当Pod被控制器(如Deployment、StatefulSet等)管理时,即使Pod未明确指定重启策略,控制器也会根据自身逻辑控制Pod副本的重启行为。

生产问题排查:springboot项目启动时注册nacos失败或运行时从nacos闪退_Pod_07