背景:线上环境进程崩溃,运维为了不背锅,要求崩溃之后立马将进程拉起。然而发现有个问题:一旦运维将进程拉起之后,之后使用崩溃的 core 文件来进行分析时,符号信息都丢失,看到的都是问号。

centos崩溃日志那里看 linux系统崩溃日志_调用栈

 但是,如果崩溃之后未被拉起,可以正常的看到符号。

centos崩溃日志那里看 linux系统崩溃日志_加载_02

后来发现,是运维启动进程的 shell 脚本,每次启动之前,会将需要加载的部分业务相关的 so 文件,文件名字修改(名称里加上了时间戳,类似 lib20200423002608_xxxx.so 这种)。名称被修改之后,gdb 自然没法加载加载这个 so 文件。

info shared

在 gdb 里使用 info shared,可以看到这个 so 文件无对应的地址,因为没有对应的 so 文件被加载。线上环境的 gdb版本是 7.2,启动时没有与 so 文件不存在相关的提示。

centos崩溃日志那里看 linux系统崩溃日志_#include_03

当然这是后话。

那么在奔溃时,如何将奔溃时的调用栈记录到日志里呢。

可以借助 backtrace 相关的 3 个函数来实现。

#include <execinfo.h>

int backtrace(void *symaddr[], int size);

char **backtrace_symbols(void *const symaddr[], int size);

void backtrace_symbols_fd(void *const *buffer, int size, int fd);

参数和返回值说明:

backtrace 传入一个数组 symaddr,用来保存符号的地址;size 为数组的大小。size 应该足够大,不然会有部分符号丢失。返回值为实际保存的地址数量。

backtrace_symbols 用来根据符号的地址,得到对应的符号。size 为 backtrace 的返回值,表示实际需要处理的符号数量。

返回的是一个 malloc 得到的字符串数组的起始地址(C 语言中不太严谨的讲,char* 就是字符串),所以最后需要调用者释放内存。

#include <stdlib.h>
#include <string>
#include <execinfo.h>
#include <unistd.h>

void getCallStackInfo(std::string &stackInfo)
{
	static const int size = 100;  //符号数量,100足够
	int nptrs;

	void *buffer[size];
	char **syms;

	nptrs = backtrace(buffer, size); //返回当前调用栈实际的符号数量

	syms = backtrace_symbols(buffer, nptrs);

	if (syms == nullptr)
	{
		perror("backtrace_symbols");
		exit(EXIT_FAILURE);
	}

	for(int i = 0; i  < nptrs; ++i)
	{
		stackInfo.append(syms[i]);
		stackInfo.append("\n");
	}

	free(syms);
}


void say(int &n)
{
	static int call_count = 0;
	++n;
	++call_count;
	printf("call count %d\n", call_count);

	if(call_count == 6)
	{
		std::string stack_info;
		getCallStackInfo(stack_info);

		printf("%s\n", stack_info.c_str());
		return;
	}

	say(n);
}


int main()
{
	int n = 3;
	say(n);
	return 0;
}

编译运行,clang++ main.cpp -rdynamic

call count 1
call count 2
call count 3
call count 4
call count 5
call count 6
./main.out(_Z16getCallStackInfoRNSt7__cxx1112basic_stringIcSt11char_traitsIcESaIcEEE+0x23) [0x400d53]
./main.out(_Z3sayRi+0x6a) [0x400e8a]
./main.out(_Z3sayRi+0xc1) [0x400ee1]
./main.out(_Z3sayRi+0xc1) [0x400ee1]
./main.out(_Z3sayRi+0xc1) [0x400ee1]
./main.out(_Z3sayRi+0xc1) [0x400ee1]
./main.out(_Z3sayRi+0xc1) [0x400ee1]
./main.out(main+0x1f) [0x400f0f]
/lib64/libc.so.6(__libc_start_main+0xf3) [0x7fe51b555873]
./main.out(_start+0x2e) [0x400c6e]

看到调用栈已经被记录下来,当然符号都是 name mangling 之后的,使用 c++filt _Z3sayRi 可以看到原始名字。

回到记录奔溃时的调用栈到日志里的主题上。通常的奔溃都是由于内存问题,那么可以捕获 SIGSEGV 信号,在信号处理函数中将当前的调用栈记录到日志中就行。写文件可能需要一个 sleep 延时等待日志线程处理完毕。

void sig_log_stack_handler(int sig)
{
    std::string stackInfo;
    getCallStackInfo(stackInfo);
    abort();
}

当然严格的来说,在信号处理器函数里处理 IO  是不符合标准的,会 UB.

注意编译时一定要带上 -rdynamic 选项才有用如果使用的是 qt creator,这个 -rdynamic 参数时需要传给链接器的,需要在 .pro 文件里加上,加到 QMAKE_CXXFLAGS 是没得用的。

QMAKE_LFLAGS += -rdynamic