一直以来,在我们大规模使用rabbitmq的服务端应用中,都没有出现rabbitmq心跳超时而造成的的影响,反倒是在rabbitmq-cpp客户端出现过很多次该问题,一直以为客户端lib实现的问题(不过一直没有对源码长时间深究、主要是cpp是我们另外一个团队负责为主),由于是WAN应用,客户又不是专业的IT人员,该问题在我们重构了行情持久化的逻辑后有了大幅度的缓和,有几个月没有客户反馈该问题了。今天在测试环境,测试人员发了张截图,在java应用中出现这个异常了,如下所示:

rabbitmq heartbeat missing with heartbeat = N seconds原因总结_rabbitmq

仔细的研究了下,MQ和应用在同一机器上,所以不可能是因为网络不稳定的问题造成了,剩下唯一的就是服务器负载过高导致。看了下出异常那会儿的负载,基本上在80%+

rabbitmq heartbeat missing with heartbeat = N seconds原因总结_rabbitmq_02

估计峰值更高,在4c的服务器,mq自己的cpu如下:

rabbitmq heartbeat missing with heartbeat = N seconds原因总结_rabbitmq_03

所以,rabbitmq heartbeat missing with heartbeat = N seconds不一定非得是网络不稳定的问题,也可能是MQ服务器负载过高导致心跳线程没有被及时调度。

 

花若盛开,蝶自飞来,你若精彩,幸福开怀!2020年12月11日-18日