cpu过高导致容器损坏 cpu过高问题排查

转载

mob6454cc6faf88 2024-08-07 12:48:56

文章标签 cpu过高导致容器损坏 linux 服务器运维 16进制 文章分类 云原生云计算

因由

接收到项目现场报某个组件模块cpu占用过高，飙升达4000+(64线程服务器)；

现场状况

现场有40多台的服务器，报警服务器所在组件模块是一个java组件模块，并且部署在了容器中；现场有几千的并发，且都是一些较大的数据对象；使用jdk1.8

解决

初步怀疑是内存溢出导致频繁full gc从而导致cpu飙高；
查看gc日志并未发现频繁full gc，且也未出现内存溢出时的堆快照文件(设置了-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath)；
此时通过top命令，然后按c，找到占用cpu最高的pid（本次案例中占用4000+cpu的pid=7）；
然后通过查看该pid对应的java进程下线程资源的占用情况；

#top -Hp $pid
top -Hp 7

发现有几十个线程的cpu占用非常高，大概都维持在99+以上，这几十个线程应该就是导致cpu飙高的罪魁祸首；

cpu过高导致容器损坏 cpu过高问题排查_linux

盘它！进入jdk的bin目录，请出神器jstack；因本次问题线程较多，为了方便查看分析，将其导出到文件中；如果线程不多，可以直接用命令查看分析；

# 将一个问题线程的id转为16进制(java线程栈中线程id为16进制)，例如将上图的第一个线程pid=339转为16进制为153
printf '%x\n' 339
# 使用jstack $pid | grep 16进制tid的形式来查看问题线程的堆栈；
jstack 7 | grep "nid=0x153 " -A20

# jstack命令来导出问题pid的所有线程栈到文件
jstack 7 > stack.log

然后进入导出的线程栈文件中，根据问题线程id转16进制后，找到对应的线程栈位置；从内容发现这批问题线程来自一个线程池，且一直处于RUNNABLE状态，而且都是卡在了TreeMap的put方法上，找到对应的业务代码位置，发现，该处为开启了对应服务器台数的线程池，然后每次请求时，会并发该数目(40多个)的线程对每个服务器发起请求获取数据，然后每个线程拿到数据后会放到共享的一个TreeMap里供后续的业务处理；

cpu过高导致容器损坏 cpu过高问题排查_运维_02