问题描述:

有一台storm的supervisor机器,本来jps命令用得一直都正常,过了几分钟再运行jps查看服务进程,发现报下面的错误:

[root@host12 ~]# jps
20368 -- process information unavailable
20517 -- process information unavailable

原因分析:

根据文章:https://www.cnblogs.com/freeweb/p/5748424.html 的描述,一般原因和解决方法如下:

在Linux下执行 jps 是快速查看Java程序进程的命令,一般情况下hadoop,hbase,storm等进程都是通过jps查看,有些时候因为进程没有被正常结束,比如资源占用过大时挂掉或者没有结束进程就直接重启计算机,会导致原有进程变为-- process information unavailable这样的空值。有时候不用管它,一段时间后会自动消失,如果一直不消失的情况下,可以使用如下方法清理: 进入/tmp目录可以看到有很多以hsperfdata_{用户名}这样的目录,比如:hsperfdata_hbase,hsperfdata_kafka,hsperfdata_root这样的目录,是因为进程虽然在内存中关闭了,但是Linux还会在/tmp下寻找这些临时文件,而此时临时文件并没有没正常删除。这时候直接执行 rm -rf hsperfdata_* 删除这些目录,然后再次执行 jps 查看,以上那些进程就不存在了。

总的来说直接执行 rm -rf /tmp/hsperfdata_* 可以快速清除那些残留进程。如果有很多正常运行的进程时,其中夹杂部分残留进程,这个时候不建议全部删除上面的目录,这时候要根据目录和进程的对应关系分析出残留的单个目录来删除无用的进程即可

结合上文的描述,自己的这台问题服务器上的supervisor正好在报错,supervisor通过storm.yaml里面配置的nimbus的hostname连不上nimbus,然后supervisor进程就挂掉了。应该是这个问题引起的jps异常。

解决过程:

按照上文的指导,在/tmp下面找到了一个hsperfdata_root目录。但是这台机器上也运行这kafka程序,但是没有类似hsperfdata_kafka这样的目录:

[root@host12 ~]# cd /tmp/
[root@host12 tmp]# ll
total 10112
drwxrwxrwx 2 root    root      4096 Aug 14 14:41 hsperfdata_root    #/tmp目录下面就找到这个目录

[root@host12 tmp]# cd hsperfdata_root/
[root@host12 hsperfdata_root]# ll
total 64
-rwxrwxrwx 1 root root 32768 Aug 14 15:11 20368     #这两个进程号就是报错里面显示的两个进程号
-rwxrwxrwx 1 root root 32768 Aug 14 15:12 20517

等了一会儿,jps运行也没有自行恢复,只能手动删除文件试试了:

[root@host12 hsperfdata_root]# cd ..
[root@host12 tmp]# rm -rf  hsperfdata_root    

然后jps命令可以运行了,但是kafka的进程在这里也看不到了。查看了kafka,发现kafka本身进程还没有挂掉,端口什么的都是正常的,就是在jps里面看不到了:

[root@host12 tmp]# jps
3852 Jps     
[root@host12 tmp]#

然后把supervisor和kafka都重启了一遍,显示就正常了

[root@host12 ~]# jps
23269 Jps
4391 Supervisor
25241 ConnectDistributed
23610 QuorumPeerMain
24492 Kafka
[root@host12 ~]#

不过运行正常之后,看了一下/tmp目录,也只存在hsperfdata_root目录,上面jps的进程号都在里面:

[root@host12 tmp]# ll
total 10124
drwxr-x--- 2 root    root      4096 Aug 15 10:19 hsperfdata_root
[root@host12 tmp]#  cd hsperfdata_root
[root@host12 hsperfdata_root]# ll
total 128
-rw------- 1 root root 32768 Aug 15 10:49 23610
-rw------- 1 root root 32768 Aug 15 10:49 24492
-rw------- 1 root root 32768 Aug 15 10:49 25241
-rw------- 1 root root 32768 Aug 15 10:49 4391
[root@host12 hsperfdata_root]#

解决问题参考文档:https://www.cnblogs.com/freeweb/p/5748424.html

image.png