一.日志分析及管理
1.       日志的功能
*       用于记录系统、程序运行中发生的各种事件
*       通过阅读日志,有助于诊断和解决系统故障
2.       日志文件的分类
*       内核及系统日志
*        由系统服务syslog统一进行管理,日志格式基本相似
*       用户日志
*        记录系统用户登录及退出系统的相关信息
*       程序日志
*        由各种应用程序独立管理的日志文件,记录格式不统一
  1. 日志保存位置
*       默认位于:/var/log 目录下
  1. 主要日志文件介绍
*       内核及公共消息日志:/var/log/messages
*       计划任务日志:/var/log/cron
*       系统引导日志:/var/log/dmesg
*       邮件系统日志:/var/log/maillog
*       用户登录日志:/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/utmp
  1. 由系统服务 syslogd 统一管理
*       软件包:sysklogd-1.4.1-39.2
*       主要程序:/sbin/klogd、/sbin/syslogd
*       配置文件:/etc/syslog.conf
  1. 日志消息的级别
*       0 EMERG(紧急):会导致主机系统不可用的情况
*       1 ALERT(警告):必须马上采取措施解决的问题
*       2 CRIT(严重):比较严重的情况
*       3 ERR(错误):运行出现错误
*       4 WARNING(提醒):可能会影响系统功能的事件
*       5 NOTICE(注意):不会影响系统但值得注意
*       6 INFO(信息):一般信息
*       7 DEBUG(调试):程序或系统调试信息等
  1. 分析工具
*       who、w、user、last、ac ,下面是who的显示结果分析
aa       tty1         2010-07-04 22:54               虚拟终端1
root     :0           2010-07-04 13:00               桌面
root     pts/1        2010-07-04 13:01 (:0.0)           远程连接1(已断开)
root     pts/2        2010-07-04 13:02 (:0.0)           远程连接2
root     pts/3        2010-07-04 22:07 (192.168.1.123)   远程连接(连接状态)
  1. 程序日志分析
*       由相应的应用程序独立进行管理
*       Web服务:/var/log/httpd/
 access_log、error_log
*       代理服务:/var/log/squid/
 access.log、cache.log、squid.out、store.log
*       FTP服务:/var/log/xferlog
*       ……
*        分析工具
*       文本查看、grep过滤检索、Webmin管理套件中查看
*       awk、sed等文本过滤、格式化编辑工具
*       Webalizer、Awstats等专用日志分析工具
二.修复MBR扇区故障
*             故障原因
*   病毒、***等造成的破坏
*   不正确的分区操作、磁盘读写误操作
*             故障现象
*   找不到引导程序,启动中断
*   无法加载操作系统,开机后黑屏
*             解决思路
*   应提前作好备份文件
*   以RHEL5安装光盘引导进入急救模式
*   从备份文件中恢复
三.修复GRUB引导故障
*             故障原因
*   MBR中的GRUB引导程序遭到破坏
*   grub.conf文件丢失、引导配置有误
*             故障现象
*   系统引导停滞,显示“grub>”提示符
*             解决思路
*   尝试手动输入引导命令
*   进入急救模式,从备份中恢复 grub.conf
*   向MBR扇区中重建grub程序
四.遗忘root用户的密码
*             故障原因
*   遗忘root用户的密码
*             故障现象
*   无法进行需要root权限的管理操作
*   若没有其他可用帐号,将无法登录系统
*             解决思路
*   引导进入单用户模式,然后重设密码
 grub > kernel ... single 或 s 或 1
*   或进入急救模式,然后重设密码
五.软件包类故障 —— rpm数据库损坏
*             故障原因
*   非正常关机、误删除运行中的程序文件
*   RPM数据文件被误写或删除
*             故障现象
*   不能正常查询rpm包信息
*   无法安装、升级或卸载软件包等
*             解决思路
*   重建RPM数据库
 rpm --rebuilddb 或 rpm --initdb
六.软件包类故障 —— 缺少*.so类文件
*             故障原因
*   软件正常运行所需要的依赖包没有安装
*   系统找不到依赖包的 *.so 共享链接库
*             故障现象
*   无法正常编译、安装或运行软件
*   报错提示“缺少... .so文件”
*             解决思路
*   确认已安装能提供相应 *.so 共享库的软件包
*   添加库文件搜索路径,并更新缓存
七.修复损坏的文件系统
*             故障原因
*   非正常关机、突然断电、设备读写失误等
*   文件系统的超级块(super-block)信息被破坏
*             故障现象
*   无法向分区中读取或写入数据
*   启动后提示“Give root password for maintenance”
*             解决思路
*   根据提示输入root口令,进入修复状态
*   使用fsck命令进行修复
八.磁盘资源耗尽故障
*             故障原因
*   磁盘空间已被大量的数据占满,空间耗尽
*   虽然还有可用空间,但文件数i节点耗尽
*             故障现象
*   无法写入新的文件,提示“… : 设备上没有空间”
*   部分程序无法运行,甚至系统无法启动
*             解决思路
*   清理磁盘空间,删除无用、冗余的文件
*   转移或删除占用大量i节点的琐碎文件
*   进入单用户模式、急救模式进行修复
*   为用户设置磁盘配额
九.无法卸载已挂载的设备
*             故障原因
*   需要卸载的设备正在被使用
*             故障现象
*   无法卸载设备,提示“... device is busy”
*             解决思路
*   将工作目录切换到挂载点以外
*   退出正在使用该设备的程序
*   或使用fuser命令找出相关进程,并终止该进程
十.检测硬盘中的坏道
*             故障原因
*   磁盘设备中存在坏道(逻辑的或物理的)
*             故障现象
*   部分文件无法正常访问,提示文件损坏
*   新建立的分区无法完成格式化
*   访问磁盘设备时死机,磁盘发出异常声响
*             解决思路
*   检测硬盘中是否存在坏道
 mkfs -t ext3 -c /dev/sdb1 或 badblocks -sv /dev/sdb1
*   修复硬盘,或更换新的硬盘
十一. 系统性能监控
1.       查看CPU负载
*             执行uptime命令
*   运行时间,登录用户数,CPU平均负载
*             查看/proc/loadavg文件
*   CPU平均负载,活动进程数/总数,最近进程的PID
2.       查看内存使用情况
*             vmstat命令
*   报告系统虚拟存储使用情况,包括内存使用信息
*             free命令
*   显示系统的物理内存和交换空间的使用情况
 
3.       磁盘I/O性能监控
iostat命令
a) 用于查看系统磁盘I/O统计信息
b) 由软件包sysstat-7.0.0-3.el5.i386.rpm提供
 sysstat还提供了 mpstat 命令,用于显示进程负载信息