[导读]AIX系统日常巡检步骤 AIX系统日常巡检主要包括以下几个内容为:cpu使用情况,内存使用情况,磁盘使用情况,系统错误日志等。通常执行以下几个步骤来进行日常巡检 1、topas 主要监控信息及监控指标 CPU监控指标:使用率60%以下为宜,60-80%需要进一步监控,90%为资源紧张。Wait超过30
AIX 系统日常巡检步骤
AIX 系统日常巡检主要包括以下几个内容为:cpu 使用情况,内存使用情况,磁盘使用情况,系统错误日志等。
通常执行以下几个步骤来进行日常巡检
1 、topas
主要监控信息及监控指标
CPU 监控指标:使用率60% 以下为宜,60-80% 需要进一步监控,90% 为资源紧张。Wait 超过30% 时检查磁盘使用情况。
磁盘监控指标:使用率30% 以下为好,30%-70% 为忙,长时间70% 以上,则可能存在磁盘瓶颈,需要进一步观察
内存监控情况:内存主要看Comp 使用率,如果长时间超过90% ,需要进一步观察页面空间使用情况
页面空间监控情况:使用率超过70% ,则需要考虑添加内存。
2 、iostat 命令
主要监控信息及监控指标
%tm_act :30%
以下为好,30%-70%
为忙,长时间70%
以上,则可能存在磁盘瓶颈
%idle :CPU
空闲时间,低于10%
则CPU
比较忙。
% iowait : CPU
等待磁盘 I/O
请求的时间,超过35%
,则可能存在磁盘io
瓶颈
3 、vmstat
主要监控信息及监控指标
r 列:观察该列数据是否大于CPU 数,如果长时间大于cpu
数,则可能对性能有影响。
b 列:被阻塞列线程数目,如果长时间大于2 ,则影响性能。
Us+sy :us+sy>70% ,则可能存在CPU
资源不足
free :内存空闲列表,该值与minfree 比较,低于minfree
,则进一步观察pi
,po
值
pi :从调页空间调入的页数。大于5 说明内存不足
po :调出到调页空间的页面数。
Free , pi ,
po
相结合观察,如果
free
低于
minfree
,并且
po
、
pi
持续增长
,
则代表出现了
系统颠簸
,
4 、lsps –a 或者swap –l
lsps 观察%used ,不超过70%
为宜
swap 观察free
5 、df –g
主要监控信息及监控指标
%used :磁盘空间使用率,关键系统的磁盘使用率不高于80%
%Iused :Inode 使用率,关键系统的磁盘使用率不高于80%
6 、errpt |more 查看系统错误日志
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
7 、mail 或者tail -200 /usr/spool/mail/root
查看系统邮件通知
8 、检查机器报警灯及led 代码。
故障解决后可以通过下面命令关闭报警灯
# /usr/lpp/diagnostics/bin/usysfault -s normal或者执行diag也可以关闭报警灯。
9、如果系统重启过,执行 alog –t boot –o查看启动过程中有无异常