场景

最近在编写ansible脚本,需要启动java后台程序,启动脚本如下:

cd /data/adapter
java -Dadapter -Xms512M -Xmx12G -classpath  .:./conf:./lib/* StartAdapter >./log/run-adapter.log 2>./log/err-adapter.log &

不使用ansible进行批量启动的话,只在本地启动是可以正常启动的。但是使用ansible执行批量启动的话,启动过程未报错,但是到后台程序的日志查看,日志大小为空,使用ps -ef|grep Dadapter是找不到对应的程序的。

环境

软件

版本

Ansible

2.9.4

Python

2.7.5

Centos

7

原因

按照ansible官方的回答,是因为每个任务都基于SSH运行,并且基于为该会话创建的终端。父进程完成后,终端关闭,这意味着与该终端关联的所有其他进程也被杀死了。 这属于SSH会话的标准做法。这是原文的链接地址 issues-33410,有兴趣的小伙伴可以打开链接进去看看。其实,我觉得可能是ansible的做法有点奇怪,和我们正常的操作有点不同。如果按照官方的回答,我们在平时ssh到服务器,在上面启动程序之后,退出之后,程序应该也会被关闭。但是,真实情况是没有出现这种情况。所以,在issues-33410也有人提出了这个问题,不过没有得到官方的回复。

尝试

添加nohup指令

按照官方回答,我在启动脚本上面,添加了nohup指令,修正后为以下脚本:

cd /data/adapter
nohup java -Dadapter -Xms512M -Xmx12G -classpath  .:./conf:./lib/* StartAdapter >./log/run-adapter.log 2>./log/err-adapter.log &

在笔者的环境里面,是部署了3台机器。在未添加nohup指令的时候,一个程序都没有正常启动起来。添加了之后,有2个程序正常启动,而有一个机器的程序没有启动起来

source环境变量

使用ansible远程执行shell命令的时候,会存在环境变量的加载顺序的问题。ansible执行是使用non-login shell,只是会加载/.bashrc/etc/bashrc,而不会加载/etc/profile~/.bash_profile。所以我们使用指定用户执行的时候,如果有部分软件的环境变量是设置在/etc/profile~/.bash_profile,那么就需要显示地引入才可以正常启动。比如,我上一步没有顺利启动的程序环境,是需要jdk环境,而是单独设置在~/.bash_profile,所以默认环境变量没有引入~/.bash_profile,导致启动失败。所以加入了环境变量启动的环节,修正的版本如下:

source ~/.bash_profile
cd /data/adapter
nohup java -Dadapter -Xms512M -Xmx12G -classpath  .:./conf:./lib/* StartAdapter >./log/run-adapter.log 2>./log/err-adapter.log &

重新部署启动,最后结果是发现全部都启动成功了

结果

通过添加了nohup命令和source ~/.bash_profile之后,后台程序顺利启动。

总结

使用开源软件进行开发的时候,遇到的问题及时记录下来,并找到解决的问题。这样日积月累,对自己解决问题的能力是很大的提升。

参考链接

关于ansible远程执行的环境变量问题(login shell & nonlogin shelll)issues-33410