AIX 系统维护

精选转载

嵗嗜戈衆 2010-03-18 16:34:33

应用维护是一项细致的工作，在工作中除了要求技术人员工作严谨、认真负责外，还要求技术人员必须具备在各种突发事件中较高的处理能力和工作经验。随着工商银行两大数据中心的建立，工行核心业务数据集中到数据中心，各一级分行的工作重点转移到柜面业务系统、综合前置系统和历史数据查询系统等外围系统的维护工作方面，其中ＡＩＸ操作系统在工行的使用比较广泛。在应用维护方面，工行使用ＡＩＸ操作系统的应用主要有：综合前置系统、跨行支付系统、客户对账系统、历史数据查询系统、国际业务结算系统５个应用系统。通过几年来的工作实践，我们积累了一些ＡＩＸ操作系统环境下应用系统的维护及性能优化的经验，归纳为５个方面，供同行借鉴。

　　
　　一、ＡＩＸ系统数据安全措施
　　在ＩＢＭ小型机硬件配置期间，就应该考虑数据的安全性，系统资源的配置要满足容错处理的要求。主要应考虑以下几点：

　　①生产主机发生硬件故障后，备机可以马上自动接管应用系统；
　　②提高操作系统的硬件冗余，尽量减少单点故障对系统的影响；
　　③加强系统备份，减少系统版本升级造成的影响。
　　针对以上要求，可以采取一些安全措施，主要是硬件资源的冗余备份、系统软件和应用软件的合理分布以及高可靠性集群软件的使用。我们的经验是：把ＡＩＸ操作系统和ＨＡＣＭＰ（ＨｉｇｈＡｖａｉｌａｂｉｌｉｔｙＣｌｕｓｔｅｒＭｕｌｔｉ－Ｐｒｏｃｅｓｓｉｎｇ）软件安装在ｒｏｏｔｖｇ上，因为ｒｏｏｔｖｇ损坏，系统将无法运行，即使通过备份磁带恢复，也会造成系统停机。因此在磁盘空间充裕的情况下，可考虑对ｒｏｏｔｖｇ作镜像。具体做法是将主机的两块内置硬盘做ｒｏｏｔｖｇ镜像，这样可提高系统的安全性，防止单块硬盘损坏对系统的影响，即使内置硬盘坏了一块，系统仍可正常运行。在建立ｒｏｏｔｖｇ镜像时，应尽量使用连接在不同ＳＣＳＩ上的硬盘，以做到负载均衡。另外，为提高系统的容错能力，可对磁盘阵列上的硬盘进行镜像配置（ＲＡＩＤ０）或ＲＡＩＤ５冗余配置，配置为ｄａｔａｖｇ，在上面安装数据库和应用程序。为提高节点可靠性，可搭建ＨＡＣＭＰ集群环境，做到双机热备，即在２台互为备份的主机上配置ＨＡＣＭＰ参数，满足系统热备要求。在日常操作方面，要做好系统备份工作，定期对生产机做两个或两个以上的介质备份。
　　
　　１．ｒｏｏｔｖｇ的配置
　　将ｈｄｉｓｋ０和ｈｄｉｓｋ１做成ｍｉｒｒｏｒ，配置为ｒｏｏｔｖｇ。
　　①把ｈｄｉｓｋ０、ｈｄｉｓｋ１加到ｒｏｏｔｖｇ：ｓｍｉｔｔｙｅｘｔｅｎｔｖｇｈｄｉｓｋ１、ｈｄｉｓｋ０ →ｒｏｏｔｖｇ。
　　②做ｍｉｒｒｏｒ：ｍｉｒｒｏｒｖｇ－ｃ２ｒｏｏｔｖｇ。
　　③在ｈｄｉｓｋ０、ｈｄｉｓｋ１上创建ｂｏｏｔＩＭＡＧＥ：ｂｏｓｂｏｏｔ－ａｄｈｄｉｓｋ０，ｂｏｓｂｏｏｔ－ａｄｈｄｉｓｋ１。
　　④改变启动设备的顺序：ｂｏｏｔｌｉｓｔ－ｍｎｏｒｍａｌｈｄｉｓｋ０，ｈｄｉｓｋ１ｃｄ０
　　
　　２．ＨＡＣＭＰ工作原理
　　ＨＡＣＭＰ主要是对群集（ｃｌｕｓｔｅｒ）资源的管理，根据应用复杂程度和配置的不同，其群集资源的接管时间在３０秒到３００秒不等，完全不需要人工干预。一个群集中的资源通常包括：应用程序、硬盘、卷组（ＶＧ）、文件系统、ＮＦＳ文件系统、ＩＰ地址等。资源分属三类资源组（ＲｅｓｏｕｒｃｅＧｒｏｕｐ）：层递式（Ｃａｓｃａｄｉｎｇ）、替换式（Ｒｏｔａｔｉｎｇ）、同时存取式（Ｃｏｎｃｕｒｒｅｎｔ）。不同类型的资源组对应不同的接管方式。一个群集中可以有几个资源组，它们可以分别是不同类型，因此，资源接管的方式可以多种多样，配置十分灵活。
　　我们一般采用的是层递式方式，即热备份工作方式，其工作原理是：ＮｏｄｅＡ和ＮｏｄｅＢ都是资源组ａ的成员，该资源组ａ被设置成层递式方式，ＮｏｄｅＡ对其拥有最高优先级。因此ＮｏｄｅＡ在群集中处于ａｃｔｉｖｅ状态时，它会控制资源组ａ中的所有资源，此时ＮｏｄｅＢ处于闲置（ｉｄｌｅ）状态，仅当ＮｏｄｅＡｄｏｗｎ掉时，ＮｏｄｅＢ才会接管资源组ａ，一旦ＮｏｄｅＡ重新加入群集，ＮｏｄｅＢ将释放资源组ａ?ＮｏｄｅＡ重新取得控制权。ＮｏｄｅＢ发生任何故障，不会造成任何影响。

　　
　　二、ＡＩＸ系统维护经验
　　
　　１．故障信息的收集
　　收集故障信息对于判断、诊断故障原因，修复系统非常重要。我们通过检查系统错误报告?ｅｒｒｏｒｌｏｇ?、发给ｒｏｏｔ用户的错误报告?ｍａｉｌ?和检查ｈａｃｍｐ．ｏｕｔ?ｓｍｉｔ．ｌｏｇ?ｂｏｏｔ．ｌｏｇ等内容来判断系统是否发生故障，根据故障信息进行相应的处理。
　　（１）系统故障记录
　　ｅｒｒｄｅｍｏｎ进程在系统启动时自动运行，记录包括硬件、软件及其他操作信息，故障记录文件为/ｖａｒ/ａｄｍ/ｒａｓ/ｅｒｒｌｏｇ，可备份下来或拷贝到别的机器上分析，使用ｅｒｒｐｔ命令（普通用户权限也可使用）。
　　＃ｅｒｒｐｔ｜ｍｏｒｅ列出简短出错信息
　　＃ｅｒｒｐｔ－ｄＨ列出所有硬件出错信息
　　＃ｅｒｒｐｔ－ｄＳ列出所有软件出错信息
　　＃ｅｒｒｐｔ－ａｊＥＲＲＯＲ＿ＩＤ列出详细出错信息
　　（２）控制面板上的ＬＥＤ代码
　　（３）ＳＭＳ（ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＳｅｒｖｉｃｅ）故障记录
　　当主控台出现键盘图标后（ＬＥＤ显示“Ｅ１Ｆ１时”）按１键。选择“Ｕｔｉｌｉｔｉｅｓ”，选择“ＥｒｒｏｒＬｏｇ”，抄下８位故障代码。
　　（４）Ｍａｉｌ检查
　　系统出现故障后会向ｒｏｏｔ用户发ｍａｉｌ，报告出错信息。通常系统出现故障后没有进行检查修复，系统还会定时以ｍａｉｌ方式提醒ｒｏｏｔ用户。
　　（５）运行故障诊断程序
　　对系统硬件进行检查和诊断，当发现有硬件故障时应立即使用ｄｉａｇ。
　　＃ｄｉａｇ
　　＞选高级诊断（ＡｄｖａｎｃｅｄＤｉａｇｎｏｓｔｉｃ）
　　＞选问题诊断（ＰｒｏｂｌｅｍＤｅｔｅｒｍｉｎａｔｉｏｎ）或选系统检查（ＳｙｓｔｅｍＶｅｒｉｆｉｃａｔｉｏｎ）
　　ｄｉａｇ运行后会给出ＳＲＮ代码、故障设备名称及百分比数、地址代码等。
　　（６）其他用于收集系统信息的命令
　　ｌｓｄｅｖ－Ｃ系统设备信息
　　ｌｓｐｖ查看物理卷信息
　　ｌｓｖｇ查看卷组信息
　　ｌｓｌｐｐ查看文件组信息
　　ｌｓａｔｔｒ查看设备参数设置
　　ｌｓｃｆｇ查看ＶＰＤ（ＶｉｒｔｕａｌＰｒｏｄｕｃｔＤａｔａ）信息
　　
　　２．系统硬件故障定位
　　    ＩＢＭ小型机硬件故障定位方法包括小型机机柜上的显示面板上的Ｃｈｅｃｋｐｏｉｎｔｓ信息，ＥｒｒｏｒＣｏｄｅ和ＳＲＮｓ。Ｃｈｅｃｋｐｏｉｎｔｓ检查点是系统加电ＣＭＯＳ初始化程序   （ＩＰＬ，ＩｎｉｔｉａｌＰｒｏｇｒａｍＬｏａｄ）运行后显示在机柜的显示面板上一系列信息。
　　    ＩＰＬ流程如下：当系统加电后，自动进入ＩＰＬ流程，ＩＰＬ流程包括４个步骤，
　　①ＳｅｒｖｉｃｅＰｒｏｃｅｓｓｏｒ的初始化，始于系统加电，直到ＯＫ显示在机柜上的显示面板上为止。这个步骤会显示８ｘｘｘ或９ｘｘｘｃｈｅｃｋｐｏｉｎｔｓ代码。
　　②由ＳｅｒｖｉｃｅＰｒｏｃｅｓｓｏｒ引导的硬件初始化，始于按下机柜上的白色电源开关。这个步骤会显示９ｘｘｘｃｈｅｃｋｐｏｉｎｔｓ。“９１ＦＦ”是最后的代码，标志着第３步的开始。
　　③系统固件的初始化，一个系统处理器接管控制并继续初始化系统资源，这个步骤会显示Ｅｘｘｘ。“Ｅ１０５”是最后的代码，标志着第４步骤ＡＩＸ启动的开始。在这个过程中还会显示各种位置码（位置码代表着系统的每一个部分）。
　　④ＡＩＸ启动，当ＡＩＸ开始启动时，显示面板上的代码为０ｘｘｘ，同时位置码会出现在第二行。当ＡＩＸ的登录窗口出现在控制台上时，第４步骤结束，同时显示面板上再无任何信息显示。
　　    当系统运行发现错误时，ＳＲＮｓ码（Ｓｅｒｖｉｃｅｒｅｑｕｅｓｔｎｕｍｂｅｒｓ，服务请求码）会以ｘｘｘ－ｘｘｘ的形式显示在显示面板上，同时在ＡＩＸ的ｅｒｒｏｒｌｏｇ中也会进行登记；当ＳＳＡ磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的ＳＲＮｓ，同时×××的显示灯会闪动，在ＡＩＸ的ｅｒｒｏｒｌｏｇ中会登记相应错误信息，在出现问题后记录下代码，并告之ＩＢＭ公司解决。
　　
　　３．软件问题处理
　　软件故障情况错综复杂，下面列举几个常见的故障处理方法。
　　（１）文件系统空间不够
　　查看有没有“满”的文件系统。特别是/、/ｖａｒ、/ｔｍｐ，不要超过９０％。文件系统满可导致系统不能正常工作，尤其是ＡＩＸ的基本文件系统。如/ ?根文件系统?满则会导致用户不能登录。用ｄｆ－ｋ查看。
　　＃ｄｆ－ｋ查看ＡＩＸ的基本文件系统
　　除/ｕｓｒ文件系统，其他文件系统都不应太满，一般不超过８０％。
　　处理方法１：删除垃圾文件
　　＃ｄｕ－ｓｋ ? ｜ｓｏｒｔ－ｒｎ｜ｈｅａｄ
　　查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件（要区分哪些目录是文件系统的ｍｏｕｎｔｐｏｉｎｔ，哪些是文件系统的子目录）。删除文件，释放空间。有时删除文件后空间并不马上释放，这是由于删除的文件正被某个程序打开。只有当这个程序停止后，空间才释放，有时甚至需要重启系统。
　　处理方法２：增加文件系统大小
　　＃ｓｍｉｔｔｙｃｈｊｆｓ
　　只要卷组?ＶＧ?中有剩余空间，文件系统可以在任何时候加大。
　　（２）检查文件系统的完整性
　　＃ｕｍｏｕｎｔｆｉｌｅｓｙｓｔｅｍ＿ｎａｍｅ
　　＃ｆｓｃｋ－ｙｆｉｌｅｓｙｓｔｅｍ＿ｎａｍｅ
　　注意：文件系统必须先ｕｍｏｕｎｔ，再做检查和修复，否则将导致未知的后果。
　　（３）查看卷组信息
　　查看是否有“ｓｔａｌｅ”状态的逻辑卷。若有，用ｓｙｎｃｖｇ命令修复。
　　（４）检查内存交换区使用率
　　检查使用率是否超过７０％，若超过则用ｃｈｐｓ－ｓＸｐｇｎａｍｅ增加Ｘ个ＰＰ或用ｍｋｐｓ－ａ－ｎ－ｓＸｍｙｖｇ在ｍｙｖｇ上增加一个ＰＰ数为Ｘ的内存交换区。
　　（５）小型机内存泄漏问题
　　小型机出现内存泄漏，即系统或应用进程无法将使用过的内存释放，使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法ＦＯＲＫ子进程，就会造成系统瘫痪。通常我们可以用ｐｓ和ｓａｒ命令来查看小型机内存和ＣＰＵ占用率的大概情况以及各进程的内存和ＣＰＵ占用率的发展趋势。使用ｐｓ命令，可查看内存和ＣＰＵ占用率的基本情况。找出其中占用内存数不断变大的进程，这个进程可能就已经发生了内存泄漏。
　　
　　４．ＩＢＭＨＡＣＭＰ双机热备系统的管理和维护
　　（１）ＨＡＣＭＰ双机系统的启动
　　以ｒｏｏｔ用户身份分别进入系统各节点，执行＃ｓｍｉｔｃｌｓｔａｒｔ命令。
　　（２）ＨＡＣＭＰ双机系统的关闭
　　以ｒｏｏｔ用户身份分别进入系统各节点，执行＃ｓｍｉｔｃｌｓｔｏｐ命令。
　　（３）查询ＨＡＣＭＰ双机系统的状态
　　在双机系统的运行中，操作员只有知道双机系统的当前状态，才有可能对双机系统出现的异常情况进行恢复处理，保证双机系统的高可用性和高容错性。查询ＨＡＣＭＰ双机系统的状态，以ｒｏｏｔ用户身份进入需要查询的节点，用＃ｌｓｓｒｃ－ｇｃｌｕｓｔｅｒ命令检查ＨＡＣＭＰ双机软件在该节点是否已启动，系统显示３个ａｃｔｉｖｅ的信息，则说明ＨＡＣＭＰ双机软件已正常启动。
　　在确认双机软件ＨＡＣＭＰ正常启动的情况下，在命令行执行＃ /ｕｓｒ/ｓｂｉｎ/ｃｌｕｓｔｅｒ/ｃｌｓｔａｔ－ａ命令查看双机系统的当前状态。
　　
　　５．网络故障处理
　　（１）网络不通的诊断过程
　　ｉｆｃｏｎｆｉｇ查看网卡是否启动（ｕｐ）；ｎｅｔｓｔａｔ－ｉ查看网卡状态；Ｉｅｒｒｓ/Ｉｐｋｔｓ和Ｏｅｒｒｓ/Ｏｐｋｔｓ是否＞１％；ｐｉｎｇ本机网卡地址；ｐｉｎｇ其他机器地址，如不通，在其机器上用ｄｉａｇ检测网卡是否有问题。
　　在同一网中，子网掩码应一致。
　　（２）网络配置的基本方法
　　 ①如需修改网络地址、主机名等，一定要用ｃｈｄｅｖ命令。
　　＃ｃｈｄｅｖ－ｌｉｎｅｔ０－ａｈｏｓｔｎａｍｅ＝ｍｙｈｏｓｔ
　　＃ｃｈｄｅｖ－ｌｅｎ０－ａｎｅｔａｄｄｒ＝＇１１２．０．１５．１＇－ａｎｅｔｍａｓｋ＝２５５．２５５．２５５．０＇
　　 ②查看网卡状态：＃ｌｓｄｅｖ－Ｃｃ－ｉｆ
　　 ③确认网络地址：＃ｉｆｃｏｎｆｉｇｅｎ０
　　 ④启动网卡：＃ｉｆｃｏｎｆｉｇｅｎ０ｕｐ
　　 ⑤配置路由，有两种方式加入路由：
　　ａ．永久路由
　　＃ｃｈｄｅｖ－ｌｉｎｅｔ０－ａｒｏｕｔｅ＝＇１１２．１．１５．２＇，＇１１２．０．１５．２５４＇
　　ｂ．临时路由
　　＃ｒｏｕｔｅａｄｄ１１２．１．１５．２１１２．０．１５．２５４
　　用命令ｎｅｔｓｔａｔ－ｒｎ查看路由表
　　
　　６．ＩＢＭ公司的巡检流程
　　ＩＢＭ公司的巡检流程，对我们日常维护应重点关注的事项有所帮助，大家可以借鉴一下。
　　（１）检查系统硬件情况：设备故障灯是否亮。
　　（２）系统错误报告。
　　（３）检查是否有发给ｒｏｏｔ用户的错误报告。
　　（４）检查ｈａｃｍｐ．ｏｕｔ，ｓｍｉｔ．ｌｏｇ，ｂｏｏｔ．ｌｏｇ。
　　（５）关键系统的文件使用率不大于８０％。
　　（６）逻辑卷有否ｓｔａｌｅ。
　　（７）内存交换区使用率是否超过７０％。
　　（８）内存交换区的大小是否为物理内存的１．５倍。
　　（９）检查备份情况（是否有系统备份、用户数据备份，磁带机是否需要清洗）。
　　（１０）检查通信设置（网卡、ＩＰ、路由表、ｐｉｎｇ、/ｅｔｃ/ｈｏｓｔｓ、ＤＮＳ设置等）。
　　（１１）是否有数据保护方式如ＲＡＩＤ１０/ＲＡＩＤ５?是否有ＨｏｔＳｐａｒｅ。
　　（１２）系统ＤＵＭＰ设置是否正确。
　　（１３）检查系统参数是否正确。
　　（１４）检查ｒｏｏｔｖｇ是否镜像。
　　（１５）检查ｅｒｒｄｅｍｏｎ?ｓｒｃｍｓｔｒ是否正常运行。
　　（１６）检查机房环境（电压、湿度）。
　　（１７）检查系统性能：是否存在性能瓶颈?ｔｏｐａｓ?ｖｍｓｔａｔ?。
　　（１８）检查补丁程序（ＰＴＦ）、微码（是否需要升级）。
　　（１９）进行ＨＡＣＭＰ测试：ＣｌｕｓｔｅｒＶｅｒｉｆｉｃａｔｉｏｎ。
　　（２０）进行系统硬件诊断：运行故障诊断程序（Ｄｉａｇｎｏｓｔｉｃ）。

　　 三、ＡＩＸ系统参数优化
　　ＡＩＸ内核属于动态内核，核心参数基本上可以自动调整，因此当系统安装完毕后?应考虑修改的参数一般包括以下内容。
　　
　　１．系统用户的最大登录数ｍａｘｌｏｇｉｎ
　　ｍａｘｌｏｇｉｎ的具体大小可根据用户数设定，可以通过ｓｍｉｔｔｙｃｈｌｉｃｅｎｓｅ命令修改，该参数记录在/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｏｇｉｎ．ｃｆｇ文件中，修改在系统重新启动后生效。
　　
　　２．系统用户的ｌｉｍｉｔｓ参数
　　这些参数位于/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｉｍｉｔｓ文件中，可以把这些参数设为－１?即无限制，可以用ｖｉ修改/ｅｔｃ/ｓｅｃｕｒｉｔｙ/ｌｉｍｉｔｓ文件，所有修改在用户重新登录后生效。
　　
　　３．ＰａｇｉｎｇＳｐａｃｅ
　　检查ＰａｇｉｎｇＳｐａｃｅ的大小，在物理内存＜２Ｇ时，应至少设定为物理内存的１．５倍，若物理内存＞２Ｇ，可作适当调整。同时在创建ＰａｇｉｎｇＳｐａｃｅ时? 应尽量分配在不同的硬盘上，提高其性能。利用ｓｍｉｔｔｙｃｈｐｓ修改原有ＰａｇｉｎｇＳｐａｃｅ的大小或利用ｓｍｉｔｔｙｍｋｐｓ增加一块ＰａｇｉｎｇＳｐａｃｅ。
　　
　　４．系统核心参数配置
　　利用ｌｓａｔｔｒ－Ｅｌｓｙｓ０检查ｍａｘｕｐｒｏｃ，ｍｉｎｐｏｕｔ，ｍａｘｐｏｕｔ等参数的大小。ｍａｘｕｐｒｏｃ为每个用户的最大进程数?通常如果系统运行Ｏｒａｃｌｅ?应调整ｍａｘｕｐｒｏｃ，将Ｄｅｆａｕｌｔ：１２８调整到５００，ｍａｘｕｐｒｏｃ增加可以马上生效。当应用涉及大量的顺序读写而影响前台程序响应时间时，可考虑将ｍａｘｐｏｕｔ设为３３?ｍｉｎｐｏｕｔ设为１６，用ｓｍｉｔｔｙｃｈｇｓｙｓ命令设置。
　　
　　５．文件系统空间的设定
　　一般来说，文件系统/、/ｕｓｒ、/ｖａｒ、/ｔｍｐ的使用率不应超过８０％，/ｔｍｐ建议至少为３００Ｍ，文件系统满将导致系统不能正常工作，尤其是ＡＩＸ的基本文件系统，如/?根文件系统?满则会导致用户不能登录。用ｄｆ查看：＃ｄｆ－ｋ（查看ＡＩＸ的基本文件系统），利用ｓｍｉｔｔｙｃｈｆｓ扩展文件系统的空间。
　　
　　６．激活ＳＳＡＦａｓｔ－ＷｒｉｔｅＣａｃｈｅ
　　利用ｓｍｉｔｔｙｓｓａｆａｓｔｗ激活每一个逻辑盘ｈｄｉｓｋｎ的Ｆａｓｔ－ＷｒｉｔｅＣａｃｈｅ：选择硬盘后，把ＥｎａｂｌｅＦａｓｔ－Ｗｒｉｔｅ改为Ｙｅｓ后，回车即可。
　　
　　７．ＨｉｇｈｗａｔｅｒｍａｒｋｆｏｒｐｅｎｄｉｎｇｗｒｉｔｅＩ/Ｏｓｐｅｒｆｉｌｅ?ｍａｘｐｏｕｔ?和ＬｏｗｗａｔｅｒｍａｒｋｆｏｒｐｅｎｄｉｎｇｗｒｉｔｅＩ/Ｏｓｐｅｒｆｉｌｅ配置
　　其缺省值为０，在双机环境中一般应将Ｈｉｇｈｗａｔｅｒｍａｒｋ设为３３?Ｌｏｗｗａｔｅｒｍａｒｋ设为２４，这两个参数可用ｓｍｉｔｔｙｃｈｇｓｙｓ来设置。
　　
　　８．ｓｙｎｃｄｄａｅｍｏｎ的数据刷新频率
　　该值表示刷新内存数据到硬盘的频率，缺省值为６０，一般可改为２０，也可根据实际情况更改。该参数通过/ｓｂｉｎ/ｒｃ．ｂｏｏｔ配置，将ｎｏｈｕｐ/ｕｓｒ/ｓｂｉｎ/ｓｙｎｃｄ６０＞/ｄｅｖ/ｎｕｌｌ２＞＆１＆参数中的６０改为２０即可。

　　
　　四、ＡＩＸ系统备份和恢复
　　备份和恢复是系统管理员经常要做的事情，主要包括ｒｏｏｔｖｇ备份和用户数据备份。
　　
　　１．操作系统和系统程序的备份
　　＃ｔｃｔｌ－ｆ／ｄｅｖ／ｒｍｔ０ｒｅｗｉｎｄ
　　＃ｓｍｉｔｍｋｓｙｓｂ
　　在“备份设备或文件”中添入“/ｄｅｖ/ｒｍｔ０”后回车，系统会运行很长时间，等到屏幕显示ＯＫ后拿出磁带。这时候，系统备份完成。ｍｋｓｙｓｂ仅备份ｒｏｏｔｖｇ中已安装的文件系统。
　　
　　２．用户数据备份
　　（１）常用磁带机选项
　　 /ｄｅｖ/ｒｍｔ０? 若选择/ｄｅｖ/ｒｍｔ０，在插入磁带和写完一次磁带时，磁带机都将磁带反绕到头。因此?下一次备份文件将覆盖本次备份。
　　 /ｄｅｖ/ｒｍｔ０．１?若选择/ｄｅｖ/ｒｍｔ０．１?则插入磁带和写完一次磁带时，磁带机均不反绕磁带。因此，一盘磁带可以连续备份几个文件或文件系统。
　　（２）＃ｓｍｉｔｆｓ
　　　　选择“备份文件系统”，输入要备份的“文件系统名称”，输入“/ｄｅｖ/ｒｍｔ０．１”，重复上述操作即可在同一盘磁带上备份多个文件系统。
　　
　　３．ｒｏｏｔｖｇ的恢复
　　启动机器进入维护模式，当出现“ＷｅｌｃｏｍｅｔｏＢａｓｅＯｐｅｒａｔｉｎｇＳｙｓｔｅｍＩｎｓｔａｌｌａｔｉｏｎａｎｄＭａｉｎｔａｎｅｎｃｅ”时，选３ “ＳｔａｒｔＭａｉｎｔｅｎａｎｃｅＭｏｄｅｆｏｒＳｙｓｔｅｍＲｅｃｏｖｅｒｙ”，要恢复系统，继续选４“ＩｎｓｔａｌｌｆｒｏｍａＳｙｓｔｅｍＢａｃｋｕｐ”，出现“ＣｈｏｏｓｅｍｋｓｙｓｂＤｅｖｉｃｅ”画面，选“/ｄｅｖ/ｒｍｔ０”并插入磁带后回车，系统自动恢复操作系统。
　　
　　４．用户数据恢复
　　　　＃ｔｃｔｌ－ｆ／ｄｅｖ／ｒｍｔ０ｒｅｗｉｎｄ
　　　　＃ｓｍｉｔｆｓ
　　　　选择“恢复文件系统”，添入“设备名称”和“目标目录”，系统会自动恢复相应目录。

　　
　　五、ＡＩＸ系统日常检查
　　ＡＩＸ系统日常检查工作是应用维护非常重要的部分，可以把系统故障排除在萌芽阶段，以下日常检查很有参考价值。
　　（１）硬件检查
　　检查各指示灯状态和各物理设备的可用情况。
　　（２）进程检查
　　检查是否有死进程，使用ｐｓ－ｅｆ命令列出正在运行的所有进程的各种信息。
　　（３）文件系统是否满
　　适用ｄｆ－ｋ命令可以以ｋ为单位检查文件系统的使用率。
　　（４）检查系统出错日志
　　使用ｅｒｒｐｔ｜ｍｏｒｅ命令检查，清除现有的ｌｏｇ?Ｅｒｒｃｌｅａｒ０。
　　（５）检查系统合法/非法登录情况
　　使用Ｌａｓｔ命令检查登录地点。
　　（６）检查系统是否有巨大的Ｃｏｒｅ文件生成
　　使用ｆｉｎｄ / －ｎａｍｅｃｏｒｅ－ｐｒｉｎｔ命令检查。对Ｃｏｒｅ文件，一般直接删除即可。
　　（７）系统性能检查
　　 ①ＣＰＵ性能：使用Ｖｍｓｔａｔ? ｔｏｐａｓ命令检查。
　　 ②内存使用情况：使用ｔｏｐａｓ，ｖｍｓｔａｔ命令检查。
　　 ③检查ＩＯ平衡使用情况：使用ｉｏｓｔａｔ命令检查。
　　 ④交换空间使用情况：使用ｌｓｐｓ－ａ命令检查。
　　（８）Ｍａｉｌ检查