1、AIX dump设置多少合理?怎样检查,有没有相应的脚本?

@youki2008 广东溢达 系统架构师:

通过sysdumpdev -e命令来计算所需的大小

@邓毓 江西农信 系统工程师:

sysdumpdev -e来估算需要的大小,然后扩容dump lv就可以了

@zftang0809 合肥华宇随身软件 软件开发工程师:

1、估算dump设备所需要的大小

sysdumpdev -e

0453-041 Estimated dump size in bytes: 89758105

2、改变主dump设备的位置

sysdumpdev -P -p ‘/dev/hd6′

primary /dev/hd6

secondary /dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dump FALSE

dump compression ON


2、系统宕机后如何查看DUMP文件?

【问题描述】正常情况下。可以访问文件系统来查看到DUMP文件。但如果遇到一些极端情况。比如硬盘故障一类的。导致系统崩溃。或者一部分文件系统无法访问的时候要如何查看系统产生的DUMP文件呢?或者是通过备份手段实施的把DUMP文件备份出来呢?

@youki2008 广东溢达  系统架构师:

硬盘故障的话,确实没有办法再去硬盘里拿取dump文件了

@孙伟光 中国金融电子化公司 IT顾问:

dump是个小概率的事件,备份手段很难捕捉到,除非将dump所在lv迁移存储上。

@hufeng719 某钢铁企业 系统工程师:

如果真遇到硬盘类故障,导致系统崩溃,无法进入系统,此时产生的dump文件还真无法查看。如果想实时的备份dump文件到另一台服务器或设备,可以通过自己编写脚本实现,大体判断有没有新的dump文件产生,如果产生了就传送。但是细想一下,如果真是极端的情况,产生dump文件了系统也就崩溃了怎么会再运行脚本传到别的设备上呢?


3、AIX系统的启用dump功能对系统性能是否有明显的影响。比如CPU、内存资源的占用。还有DUMP文件是否会占用大量的磁盘空间呢?

@youki2008 广东溢达  系统架构师:

性能肯定是会有一点点影响的,不过不是特别明显

@孙伟光 中国金融电子化公司 IT顾问:

不会,空间跟发生dump时候状态有关。如果配置的dump空间过小

系统会定期检查,有问题会有如下报错信息

E87EF1BE 0828150018 P O dumpcheck The largest dump device is too small.


4、AIX dump分析的流程是怎样的?有哪些侧重点和技巧?

@zftang0809 合肥华宇随身软件 软件开发工程师:

参考这位专家的材料

【经验分享】日常分析 AIX DUMP 的入门方法

https://www.talkwithtrend.com/Article/177311

@zhanghaiyan 人人车 系统分析师:

https://www.ibm.com/developerworks/cn/aix/library/0806_chench_core/


5、AIX分析系统dump和进程dump有哪些差异和值得注意的地方?

@邓毓 江西农信 系统工程师:

操作系统层的DUMP和进程级的DUMP,看的方向就不一样。

@孙伟光 中国金融电子化公司 IT顾问:

多数情况下进程dump后会引发系统dump,一般多是核心进程,如果是应用进程dump多数引发的是业务hang掉。很少情况下如数据库很可能引发系统宕机重启。分析dump第一步还是先找到dump文件,系统有错误事件,一起分析dump原因,如果是常见的中间件这类进程dump,那么去相应的目录找到dump文件,通过各类的专业工具去分析。系统dump一般通过AIX 系统KDB都能分析出大致的原因。

@zftang0809 合肥华宇随身软件 软件开发工程师:

一般aix系统宕机,收集dump,开pmr支持~~

就问题处理问题


6、能否分享个查看DUMP的工具软件和链接?

@聂奎甲 长春长信华天 项目经理:

可以试一下这个工具 DumpViewer

@liujinlong  项目经理:

minidump-analyzer


7、AIX环境下对于KDB溢出堆栈有没有对应函数说明?另外文件Inode有没有大致的ID分布?

@youki2008 广东溢达  系统架构师:

kdb提供丰富的命令实现运行控制、内存操纵、寄存器操纵、断点设置、堆栈跟踪等许多功能,总共有33条命令。

堆栈跟踪类类指令实现对堆栈的跟踪,包括bt、btp和bta三条命令。

bt:显示调用堆栈

格式:bt []

如果不指定参数,它根据当前寄存器的内容显示堆栈,提供当前活动线程的完整的堆栈跟踪。如果指定stack-frame addr参数,它将从该地址开始跟踪。

btp:显示进程的堆栈

格式:btp

显示由pid指定的进程的堆栈。

bta:显示所有进程的堆栈

格式:bta


8、AIX系统中老是报The largest dump device is too small错误?如何处理?

@邓毓 江西农信 系统工程师:

先看errpt -a报错信息,看目前和预估的还差多少,再适当扩容lg_dumplv这个lv即可。

@张文正  系统工程师:

楼上基本说的都对,主要是dump空间太小,扩一dumplv这个lv空间基本就可以!

@hufeng719 某钢铁企业 系统工程师:

dump存储空间不足,需要扩容   extendlv lg_dumplv NUM_PPS


9、aix系统的dump功能如何开启与关闭?

@邓毓 江西农信 系统工程师:

用sysdumpstart命令开启,您可以用man sysdumpstart命令来查看详细用法


10、HeapAnalyzer工具查看heapdump文件时如何定位问题关键点?打开文件后不知道该关注哪些地方?

解密神秘莫测的“黑匣子”-- AIX Dump Core 文件_java

@张文正  系统工程师:

这个工具是分析aix 系统snap 收集的snap.pax.Z一个工具!下载安装后把open 打开snap收集文件进行分析大概需要2个小时左右吧,点击左边的树状结构右击看详细信息!需要java支持,有些比较专业的才能看懂,你安装这个工具的时间应该有readme说明吧!


11、如何手动生产dump文件?kill -3 吗?

@孙伟光 中国金融电子化公司 IT顾问:

kill -3 pid 一般用的最多的就是中间件应用服务器分析在负载异常的时候线程运行代码哪里有问题,比如常见的java thread dump,这个一般做应用开发的人用的最多。协助应用开发的人分析底层代码执行情况。