依然是前阶段(太久没写blog了)发现线上Kafka用的Zookeeper集群其中一个节点内存用到了4个多GB,进一步发现这个节点的watcher有几百万了==

发现原来在所有的flume-agent上只配置了这个节点,以为会自动感知(线上版本是3.4.5,还没这么高端的功能);

另外发现agent端的flume conf是自动生成的,其中topic是判断固定路径下所有日志的文件名,每个文件名会生成一个topic+channel,有些应用会不遵守规范在该路径下写很多文件,所以很多session会监听几百个watcher.

   很多session其实已经closed掉了但是watcher还在,这其实是Zookeeper的一个bugZOOKEEPER-1382)导致的memory leak,down掉到无所谓,就怕gc导致的slow response进而影响produce/consume.