RabbitMQ脑裂OOM

原创

纪仁旺 2020-03-16 15:48:17 ©著作权

文章标签 RabbitMQ 文章分类 运维

©著作权归作者所有：来自51CTO博客作者纪仁旺的原创作品，请联系作者获取转载授权，否则将追究法律责任

一网络原因导致MQ脑裂：问题重现： Network partition detected

Mnesia reports that this RabbitMQ cluster has experienced a network partition. There is a risk of losing data. Please read RabbitMQ documentation about network partitions and the possible solutions.

当出现网络分区时，不同分区里的节点会认为不属于自身所在分区的节点都已经挂了，对 queue、exchange、binding 的操作仅对当前分区有效。在 RabbitMQ 的默认配置下，即使网络恢复了也不会自动处理网络分区带来的问题从而恢复集群。RabbitMQ（3.1+）会自动探测网络分区，并且提供了配置来解决这个问题。

[ {rabbit, [{tcp_listeners,[5672]}, {cluster_partition_handling, ignore}] } ]. RabbitMQ 提供了三种配置： 1、ignore：默认配置，发生网络分区时不作处理，当认为网络是可靠时选用该配置 2、autoheal：各分区协商后重启客户端连接最少的分区节点，恢复集群（CAP 中保证 AP，有状态丢失） 3、pause_minority：分区发生后判断自己所在分区内节点是否超过集群总节点数一半，如果没有超过则暂停这些节点（保证 CP，总节点数为奇数个）

解决：在出现问题的节点上执行:
sbin/rabbitmqctl stop_app sbin/rabbitmqctl start_app

注意：rabbitmq集群不能采用kill -9 杀死进程，否则生产者和消费者不能及时识别mq的断连，会影响生产者和消费者正常的业务处理。

二 MQ内存节点OOM 集群的节点都是4G内存，使用默认配置文件，可使用的内存是1.5G, 队列积压导致内存溢出 mq内存节点OOM原因：

1.消息堆积 2.消费服务节点OOM宕机

解决：１消费端可以正常消费 2 保证mq集群节点正常 3 mq配置调优　 more rabbitmq.config

[ {rabbit, [ {tcp_listeners,[{"0.0.0.0",5672}]}, {loopback_users, []}, {log_levels, [{connection, error}, {channel, error}]}, {vm_memory_high_watermark_paging_ratio, 0.75}, {vm_memory_high_watermark, 0.6} ]} ].

命令行设置最高使用内存占比： rabbitmqctl set_vm_memory_high_watermark 0.6 参数配置: vm_memory_high_watermark : 设置内存低水位线，若低于该水位线，则开启流控机制，默认值是0.4，即内存总量的40% vm_memory_high_watermark_paging_ratio : 设置内存低水位线消息开始持久化到磁盘，默认50%