最近在centos6.5系统上遇到程序疑似崩溃但是没有发现崩溃文件的问题,后来经过排查发现,竟然是崩溃后由于系统设置导致崩溃产生的core文件被移除的缘故。

1.怎么确认程序发生过崩溃:打开 /var/log/messages 文件(也可能是带着日期的类似messages-xxxxx这样的文件),然后在这个文件里通过关键字查找,关键字可以是你的程序名(我的是pausdk),如下图:

crash 日志 centos centos崩溃日志_crash 日志 centos

linux会有一个abrt服务专门负责处理这些崩溃相关信息,通过这个日志记录,你会找到崩溃发生的时间点,崩溃的原因,以及崩溃文件到底去哪里了。显然,这个崩溃文件被删除了,崩溃文件太大的原因。

2.如何修改设置让core文件正常生成:

(1).首先你在你的黑窗口上输入:ulimit -c 得到如下图:

crash 日志 centos centos崩溃日志_系统设置_02

这个0的意思是说,您的core文件生成是受限制的,我一般是直接去改设置文件,将设置写死,免得不生效。打开文件/etc/profile  然后在最末尾添加一行 ulimit -c unlimited ,然后保存退出,使用命令 source /etc/profile  使其生效。这时再输入先前的命令,如下图:

crash 日志 centos centos崩溃日志_找不到崩溃文件_03

这个就表示生效了,其实不通过写文件,只输入命令 ulimit -c unlimited 同样生效,但是只在当前这个会话里生效,你在重新开一个新的终端试试,就又回到0了,所以我一般设置在文件里,生效后,以后再打开的新连接,都是unlimited。

(2).接下来设置abrt服务配置项

打开文件 /etc/abrt/abrt-action-save-package-data.conf  按如下设置:    

crash 日志 centos centos崩溃日志_core文件_04

打开文件 /etc/abrt/abrt.conf 这个默认值1000,改为0,意思是core文件大小不在受限制

crash 日志 centos centos崩溃日志_打开文件_05

最后 service abrtd restart 让设置生效!

如果前面这些都做完了,但还是会出现有时拿不到崩溃文件的情况,反正我是遇到了。因为我的程序是被另一个服务启动的,可能对于启动我的程序的那个会话来说,ulimited是没生效的,因此还是没有崩溃文件。所以那就想办法让启动程序的这个会话的ulimited设置能够生效就行了,比如我的程序是被一个sh脚本启动的,那么我就在那个脚本里添加一行 ulimit -c unlimited ,然后在用该脚本启动我的程序时,崩溃文件就再也不会被删除了。