1. 故障现象
    使用Pod启动一个服务,不发送请求Pod正常,只要一发送请求则Pod报错,并且重启Pod
# Back-off restarting failed container
  1. 排查过程
    查看Pod状态发现Pod因为内存溢出重启了
# kubectl get pod -n xiaoxingcloud-prd binary-classification-master-658749cc9b-mcqt2 -o yaml

记一次Pod内存资源限制导致的Pod重启Back-off restarting failed container_重启


发现Pod有资源限制

记一次Pod内存资源限制导致的Pod重启Back-off restarting failed container_重启_02


实际Deployment配置文件没有做资源限制,不清楚为什么启动Pod自动做了资源限制

3. 解决方法

修改deployment配置文件,把资源限制增大

记一次Pod内存资源限制导致的Pod重启Back-off restarting failed container_重启_03


查看监控发现该Pod的资源消耗内存在800M左右,之前默认的400M确实不够用

记一次Pod内存资源限制导致的Pod重启Back-off restarting failed container_重启_04

发现关键字OOMKilled则代表是内存资源限制导致的Pod重启,但是目前不清楚是什么原因导致Pod有资源限制