[导读]AIX系统日常巡检步骤 AIX系统日常巡检主要包括以下几个内容为:cpu使用情况,内存使用情况,磁盘使用情况,系统错误日志等。通常执行以下几个步骤来进行日常巡检 1、topas 主要监控信息及监控指标 CPU监控指标:使用率60%以下为宜,60-80%需要进一步监控,90%为资源紧张。Wait超过30


 



AIX 系统日常巡检步骤 



AIX 系统日常巡检主要包括以下几个内容为:cpu 使用情况,内存使用情况,磁盘使用情况,系统错误日志等。



通常执行以下几个步骤来进行日常巡检



 



1 、topas





主要监控信息及监控指标


CPU 监控指标:使用率60% 以下为宜,60-80% 需要进一步监控,90% 为资源紧张。Wait 超过30% 时检查磁盘使用情况。


磁盘监控指标:使用率30% 以下为好,30%-70% 为忙,长时间70% 以上,则可能存在磁盘瓶颈,需要进一步观察


内存监控情况:内存主要看Comp 使用率,如果长时间超过90% ,需要进一步观察页面空间使用情况


页面空间监控情况:使用率超过70% ,则需要考虑添加内存。


 


2 、iostat 命令


 

主要监控信息及监控指标


%tm_act    :30% 
  以下为好,30%-70% 
  为忙,长时间70% 
  以上,则可能存在磁盘瓶颈 
 
  
   %idle   :CPU  
  空闲时间,低于10% 
  则CPU 
  比较忙。 
 
  
   % iowait   : CPU  
  等待磁盘 I/O  
  请求的时间,超过35% 
  ,则可能存在磁盘io 
  瓶颈 
 
  

     
 
  
   3   、vmstat 
 
     
     
   主要监控信息及监控指标  
  
   r   列:观察该列数据是否大于CPU   数,如果长时间大于cpu 
  数,则可能对性能有影响。 
 
  
   b   列:被阻塞列线程数目,如果长时间大于2   ,则影响性能。 
 
  
   Us+sy   :us+sy>70%    ,则可能存在CPU 
  资源不足 
 
  
   free   :内存空闲列表,该值与minfree   比较,低于minfree 
  ,则进一步观察pi 
  ,po 
  值 
 
  
   pi   :从调页空间调入的页数。大于5   说明内存不足 
 
  
   po   :调出到调页空间的页面数。  
  

     
 
  
Free   ,   pi   , 
  po 
  相结合观察,如果 
  free 
  低于 
  minfree 
  ,并且 
  po 
  、 
   pi 
  持续增长 
  , 
  则代表出现了 
  系统颠簸 
  ,
  

     
 
  
   4   、lsps –a    或者swap –l  
 
  
   lsps    观察%used      ,不超过70% 
  为宜 
 
  
   swap    观察free   
     
     
   5   、df –g   
     
     

     
 
  
   主要监控信息及监控指标  
  
   %used   :磁盘空间使用率,关键系统的磁盘使用率不高于80%  
  
   %Iused   :Inode   使用率,关键系统的磁盘使用率不高于80%  
  

     
 
  
   6   、errpt |more    查看系统错误日志  
  
#errpt -d H     列出所有硬件出错信息
   
#errpt -d S     列出所有软件出错信息
   
#errpt -aj ERROR_ID     列出详细出错信息
  
   7   、mail   或者tail -200 /usr/spool/mail/root  
  
   查看系统邮件通知  
  

     
 
  
   8   、检查机器报警灯及led   代码。  
  

    故障解决后可以通过下面命令关闭报警灯 
  
   

    # /usr/lpp/diagnostics/bin/usysfault -s normal或者执行diag也可以关闭报警灯。


9、如果系统重启过,执行 alog –t boot –o查看启动过程中有无异常