HP小型机系统管理员必读

精选转载

pgmia 2008-09-25 10:41:38

HP小型机系统管理员必读

前言

尊敬的客户，首先欢迎您购买HP9000小型机服务器。
尊敬的系统管理员，您选择了惠普的产品，同时也就选择了惠普的服务。您在任何时候都不是孤立无援，在您们的身后有一个惠普计算机系统响应中心在时刻准备着为您提供技术服务。不论是系统故障，还是Unix方面的技术问题，甚至是某条命令用法，您都可以致电惠普响应中心。该中心配有经验丰富的软件、硬件工程师，可以通过电话或计算机远程访问确定故障点，以最快速度解决用户问题。
所以，在系统运行发生故障时,欢迎拨打惠普计算机系统服务响应中心电话请求援助。联系方法是：

1) ( 010 ) 6564 3800
2) 800-810-7000（免费服务电话）
3) 传真：（010）6566 8208

为了让系统管理员在最短的时间内尽快获得有关HPUX操作系统的基本知识以及HP 9000小型机硬件的基本构造，指导管理员进行日常系统维护，我们特意为您订做了这本『必读』。
该『必读』分为机房环境、系统管理员日常工作、数据备份与恢复以及双机热备的方面简单介绍了HP9000小型机及其操作系统的正确使用方法及故障诊断的简单技巧。尽管惠普计算机系统服务响应中心和分布在全国十四个城市的惠普技术服务工程师都准备为您提供优质的服务，但对于一些简单的技术问题和故障，通过您的努力，能够亲手排除。一来可以最快的解决问题，二来您也可以小有成就感。这是我们编制此『必读』的另一目的。

目录
前言 1
第一章、有关机房现场环境 2
一、机房总体要求 2
二、机房内环境要求 3
三、电源要求 4
四、HP9000小型机的功率及散热量指标 5
五、 HP9000小型机和机柜的尺寸及重量 7
第二章、故障诊断(TROUBLE-SHOOTING) 8
一、硬件故障诊断 8
二、软件故障诊断 9
三、网络故障 10
第三章、系统管理员的日常工作 11
一、关于HP-UX的硬盘资源的逻辑卷管理 12
二、关于系统主控台CONSOLE的说明与设置 15
三、系统的开关机和PDC简介 16
四、HP SECURE WEB CONSOLE 的配置与维护 18
五、有关DDS磁带机 18
六、日常设备维护检查 27
第四章、系统备份与灾难恢复 32
一、系统备份与恢复常用命令 32
二、系统备份 / 恢复方法及策略 39
第五章、有关HP双机热备软件 41
一、手动启动MC/SG 41
二、单点启动后，加入另一个节点： 42
三、实现节点切换 42
四、监测 CLUSTER 运行状态 42
五、停止 CLUSTER 运行 42
六、停止运行某个节点而 CLUSTER 在其它节点继续运行 42
七、在 RUNNING CLUSTER 中运行某一个包 43
八、停止一个运行中的包 43
九、改变一个包的切换属性 43
后续 44

第一章、有关机房现场环境

一、机房总体要求
机房应避免下列因素：
 电磁场
 磁场
 腐蚀性气体
 易燃物或易燃性气体
 爆炸物品
 湿气
 灰尘
计算机的前后左右应有足够的散热空间。
门、窗密封，机房场地保持清洁。
机房避免阳光直射。
机房内不可铺设地毯，以防静电。
任何无线电杂波干扰应低于0.5V/米。
二、机房内环境要求
1. 温度与湿度：
 温度：20－25℃，最佳：22℃
 相对湿度：40％－60％，最佳：55％
 机房最大温度变化率：10℃/小时
 北部地区气候干燥，建议使用加湿器
 南方地区气候潮湿，建议使用去湿器
2. 机房散热量计算：
保持机房内计算机系统操作于最佳温/湿度空间，必须计算机房内总散热量，其中包括：
 机房内机器散热量总和
 灯光
 人员散热量：每人平均600BTU/小时
 未来扩充的设备
 机房空间散热量：50BTU/平方英尺
总散热量为上述各项散热量之和，下列有公式可换算成冷气机使用千卡：
BTU/hr = WATTS×3.413
K/hr=BTU/hr*0.25
3. 空气含尘量：
机房应保持清洁，空气中大于0.5Micron的杂质在每立方英尺不多于45000个，若空气灰尘过多，很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。
4. 机房颤动度：
机房内颤动度不得高于0.5G，机房内产生震动的机器避免放置在一起，因颤动将使机器内机械部分、接头、主机面板接触部分产生松动,而造成机器不正常。
5. 磁场杂波干扰：
机房附近的无线电杂波干扰应低于0.5V/M（频率范围从14KHz到 1GHz），若机房附近有强烈磁场干扰时，应迁移机器，倘若还是无法避免，将机房四周用金属隔离，使磁场干扰降至标准之下。

三、电源要求
1. 电压、频率变动范围：
 电压：203－228V
 频率：50+/-0.5Hz
2. 瞬间变动电压：
瞬间变动电压不能超过220V+/－15%，且必须在0.5秒内恢复至220V,对于计算机系统则必须在0.06秒内恢复正常。
3. 总谐波：不高于5％。
4. 所需电力：主机系统及外设和网络设备所需功率，至少增加30％，以便将来扩充。
5. 地线系统：
 接地线必须和任何导线完全隔离及绝缘
 接地线线径至少为3.5mm
 接地线不是零线，必须和零线分开
 系统接地电阻在电源插座零线与地线间测量时不大于2欧姆（用接地阻抗测试器测量）
 在电源输出座所测零线和地线间电压必须小于1V
 不能使用铁管代替接地线
 在接地线的接地端测的接地电阻不大于1欧姆
6. 电源插座：
符合中国国标
*G
*N *L
L：火线 N：零线 G：地线
7. 电源配线：
 空调系统不能和计算机系统公用同一电源
 照明系统最好不要和计算机系统公用同一电源
 对于主要的设备如主机、外设等使用独立的电源开关和插座
8. 保证计算机系统的可靠工作应使用稳压电源和UPS，并建议配备发电机组。

四、HP9000小型机的功率及散热量指标

主机型号最大所耗功率W 额定电流A 散热量BTU/hr
A180/A180C 100 0.43
G、H、I Class 800 6 2770
E Class 400 3.5 1385
D210/D220/D230 341 2.3 1164
D250 500 2.3 1707
D260 500 3.4 1707
D270/D280 930 4.1 3171
D310/D320/D330/D350 643 4.3 2195
D360 643 4.3 3174
D370/D380/D390
R380/R390 930 4.1 3174
K100/K200/K210/K220
K400/K410/K420 1250 6 4263
K360 1250 6 5800
K460/K370/K380
K570/K580 1700 10 5800
T600 4680 21 15959
V2200 4910 50 16763
V2250 5335 50 16763
L2000 1283 6.5 4380
N4000 3000 13.8 10230

五、 HP9000小型机和机柜的尺寸及重量

机型深mm 宽mm 高mm 重kg
A Class 585 425 85 11
G/H/I Class 533 424 430 50
E Class 533 222 430 32
D Class 551 259 604 36~43
K100/K200/K210/K220
K400/K410/K420 610 440 641 52~64
K360/K460/K370
K380/K570/K580 704 440 641 60~75
R380/R390 710 483 264 38
T Class 905 750 1620 375
V Class 859 991 970 235
L2000 774 482 311/368 68
N4000 812 482 445 90
E25 机柜 1000 600 1250
E33 机柜 1000 600 1600
E41 机柜 1000 600 2000

第二章、故障诊断(Trouble-Shooting)

计算机故障种类很多，为了使您了解简单的常见故障处理，我们将分硬件、软件及双机热切换三部分举例说明，其中后者我们在第五章中还将提到。

一、硬件故障诊断
在此介绍根据液晶显示方面的信息，了解硬件故障诊断方面的情况。

1. 电缆连接
注意计算机及各外设之间连线接触良好，不要无故拔插电缆；如果发生计算机不能识别某个设备，有可能是电缆的接触问题。

2. 硬件状态指示灯
如果发现系统工作不正常，可以观察硬件状态指示灯的情况。
开机后系统将自动完成自测试，诊断及引导启动代码。检测顺序大致为：高速缓存，中央处理器，总线，内存，I/O设备。当检测到相关的硬件时，对应的显示灯会亮。
硬盘，软盘，磁带机及光盘驱动器自检时，能从前面板上看到相应的灯亮一下，表明系统已经识别到上述设备。相反，如果某驱动器的自检灯没亮，很可能是该设备有问题。
另外，主机背后的SCSI接口卡及网络接口卡上的自检指示灯亮为正常状态。否则，可能该接口卡有问题。发现这种问题，请马上与HP联系，考虑更换备件。

3. 错误代码
每次开机后，系统都会自动进行硬件自检及初始化，假如系统出现硬件故障，一般都不能正常启动，并在液晶显示屏及控制台上相应的显示出错误代码及出错信息。
若屏幕上出现ERROR且液晶显示上出现FLT，表明有故障发生，应根据上述提示确定故障点。
绝大部分硬件错误都能在自检时暴露出来，在液晶显示及控制台的左下角都有四位错误代码，格式：FLT xxxx.
分析这四位代码可以进一步检测出故障的情况。如下表列出了K系列计算机的错误代码，相应的故障原因及解决方案。
HP9000 K 系列

故障代码故障原因解决方法
1XXX CPU 或快速缓存问题 1、更换CPU卡；2、更换系统卡；
2XYY 快速缓存问题 1、更换CPU卡；2、更换系统卡；
3XYY 处理器相关的问题 1、更换系统卡
4XYY 自检故障 1、更换CPU卡；
5XYZ 总线传输故障更换，Y标明的PCA卡或更换系统卡
7XXX 内存故障更换内存

二、软件故障诊断
由于软件故障情况错综复杂，无法在此一一赘述，这里例举几个常用命令来查看系统状态。
1. # ioscan -fn
列出各I/O卡及设备的所有相关信息：如逻辑单元号，硬件地址及设备文件名等。
2. # ps -ef
列出正在运行的所有进程的各种信息：如进程号及进程名等。
3. # netstat -rn
列出网卡状态及路由信息等。
4. # lanscan
列出网卡状态及网络配置信息。
5. # bdf
列出已加载的逻辑卷及其大小信息。
6. # mount
列出已加载的逻辑卷及其加载位置。
7. # uname -a
列出系统ID 号，OS版本及用户权限等信息。
8. # hostname
列出系统网络名称。
9. # pvdisplay -v /dev/dsk/c*t*d*
显示磁盘各种信息，如磁盘大小，包含的逻辑卷，设备名称等。
10. # vgdisplay -v /dev/vg00
显示逻辑卷组信息，如包含哪些物理盘及逻辑卷等。
11. # lvdisplay -v /dev/vg00/lvol1
显示逻辑卷各种信息，如包含哪些盘，是否有镜像等。

三、网络故障
1. 如需修改网络地址、主机名等，一定要用 set_parms 命令
# set_parms hostname
# set_parms ip_address
2. 查看网卡状态： lanscan
Hardware Station Crd Hardware Net-Interface
Path Address In# state nameunit state
8/20/5/1 0x0800097843FB 0 up lan0 up
3. 确认网络地址：
# ifconfig lan0
4. 启动网卡：
# ifconfig lan0 up
5. 网络不通的诊断过程：
lanscan 查看网卡是否启动 (up)
ping 自己网卡地址 (ip 地址)
ping其它机器地址，如不通，在其机器上用lanscan 命令得知 station address，然后linkloop station_address 来确认网线及集成器是否有问题。
在同一网中， subnetmask 应一致。
6. 配置网关
手动加网关：
/usr/sbin/route add default 20.08.28.98 1
把网关自动加入系统中
vi /etc/rc.config.d / netconf
:
ROUTE_DESTINATION [0]=default
ROUTE_GATEWAY [0]=20.08.28.98
ROUTE_COUNT [0]=1
:
/sbin/init.d/net 将执行：
/usr/sbin/route add default 20.08.28.98 1
命令 netstat -rn 查看路由表
另外也可用 set_parms addl_netwrk 来设缺省路由。

第三章、系统管理员的日常工作

系统管理员对小型机系统的正确管理是系统稳定运行的保障，作为系统管理员应注意以下几个方面：
1. 开关机步骤
2. 用户组及用户管理
参见手册 HP-UX System Administration Tasks
3. 文件系统维护
发现文件系统已满，应及时删除无用文件或扩大文件系统。
4. 系统日常管理
系统管理员最好用 sam (System Administrator Manager)来进行系统管理。sam是以菜单方式工作的工具包，它包括了日常管理工作的所有命令，操作简便。
5. 系统备份
备份是保护用户数据不丢失的重要手段。一般系统备份的要求如下：
A. 每一台机器的操作系统至少有一个全备份。
B. 每天备份用户数据。
C. 操作系统配置修改后重新备份操作系统。
6. 定时清洗磁带机
7. 定时检查设备指示灯状态
8. 简单故障的判断
9. 熟悉HP-UX操作系统
在用户手册中，以下两本书对系统管理员的日常工作会有很大帮助：
『 HP-UX System Administration Tasks』
『Configuring HP-UX for Peripherals』

一、关于HP-UX的硬盘资源的逻辑卷管理
HP－UX管理硬盘存储资源是采用逻辑卷方式来进行管理的，要说清整个机制，先要介绍几个概念：
物理卷Physical Volume，称为PV：指物理上硬盘，一个硬盘就是一个PV
逻辑卷组 Logical Volume Group，称为VG：一个VG包含整数个PV，可理解为一个大硬盘。
逻辑卷 Logical Volume，称为LV：相当于对大硬盘进行逻辑分区，一个VG里可有若干个LV。
文件系统 File System：在逻辑卷的基础上，可建立文件系统，然后 MOUNT到一个目录下，这样就可以文件存取的方式来使用这块硬盘了。
当然，您也可以不建文件系统，而直接把LV当作裸设备，以TRUNK方式来存取数据，许多数据库都是用这种方式存取数据。
根据以上介绍，在HPUX下正确使用硬盘的顺序及相应命令如下：
1. 先建物理卷：
# pvcreate –f /dev/rdsk/cCdDtT
这里必须使用硬盘的字符设备文件
2. 再建逻辑卷组：
# mkdir /dev/vg0X X：0～f，逻辑卷组名
# mknod /dev/vg0X/group c 64 0x0X0000
# vgcreate vg0X /dev/dsk/cCdDtT
3. 然后划分逻辑卷：
# lvcreate –L size vg0X size：该逻辑卷大小
4. 在LV上建文件系统：
# newfs –F file_system_type /dev/vg0X/rlvolY
file_system_type：文件系统类型，包括hfs和vxfs，注意此时用该逻辑卷的字符设备文件。
5. 将此文件系统Mount到一个目录下：
# mkdir /directory
# mount /dev/vg0X/lvolY /directory
到此为止，您已经可以使用这个硬盘了。有时您可能在现有的环境下，需要添加、删除逻辑卷，或者是需要扩大文件系统。我们可以这样做：

6. 添加逻辑卷
添加文件系统卷。例如：在vg01上添加一个200M的文件系统卷，卷名为data，mount到目录/sample 上。
A、创建逻辑卷，在系统提示符下键入命令：
# lvcreate –L 200 –n data /dev/vg01
B、在逻辑卷data上创建文件系统：
# newfs –F hfs /dev/vg01/rdata
注：如果是vxfs文件系统，则用
# newfs –F vxfs /dev/vg01/rdata
C、创建目录/sample，并将逻辑卷data mount 到/sample.
# mkdir sample”
# mount /dev/vg01/data /sample
D、用bdf命令，将会看到/dev/vg01/data mount 到 /sample上。

7. 删除逻辑卷
例如：删除 vg01 中名为 data 的逻辑卷，mount 到/sample。
1) 卸载所要删除的逻辑卷：
A、首先用 umount 命令将逻辑卷 data 从/sample上卸载下来：
# umount /sample
B、若系统提示设备忙，不能卸载；则在根目录系统提示符下，键入以下命令，进入单用户：
# shutdown -y 0
在单用户下，先将所有逻辑卷mount上，键入命令：
# mount -a
用bdf命令看该逻辑卷是否已经mount上，如果mount上，键入以下命令：
# umount /sample
2) 删除逻辑卷 /dev/vg01/data ，用命令：
# lvremove /dev/vg01/data
8. 扩大文件系统
1) 扩大文件系统，首先要找到这个文件系统所对应的逻辑卷，只有首先扩大逻辑卷，给文件系统以扩大的空间，才能扩大文件系统。
2) 为扩大逻辑卷，先进单用户，在根目录系统提示符下，键入命令：
# shutdown -y 0
3) 进入单用户后，先将所有文件系统mount上，键入命令：
# mount -a
4) 用bdf命令看该文件系统是否已经mount上，如果mount上，用命令 #umount文件系统名umount该文件系统。例如，想要扩大“/usr”到500M ,就键入命令：
# umount /usr
5) 用命令：
# lvextend -L 500 /dev/vg00/lvol4
这里，假定 /usr 对应 /dev/vg00/lvol4
6) 用命令：
# extendfs /dev/vg00/lvol4 扩大文件系统。
注：如果是vxfs文件系统，则用
# extendfs -F vxfs /dev/vg00/lvol4
7) 用命令：
# mount /dev/vg00/lvol4 /usr
将文件系统 mount 到 /usr
这样，文件系统“/usr”就被扩大了，
8) 用命令：
# init 3 进入原来多用户运行级。
9. unix 的文件系统
1) UNIX的文件系统是树状结构，从根开始，从表面上看，文件系统好象是一个整体，但实际上，文件系统可以分成不同的部分，单独占据一块逻辑卷，就是一个文件系统。
2) UNIX的文件系统可以分为四种类型：
HFS
VXFS
CDFS
LOFS
3) 在HPUX中，有下列文件系统：
“ / ” 根文件系统
“ /usr ”, “ /sbin ” 操作系统的一部分。
“ /opt ”和Application 有关的文件系统。
“ /etc ” mount 到此目录下的文件系统包含系统配置文件
“ /var ” mount到此目录下的文件系统中的文件为系统启动，运行
等等，产生的报告文件。
“ /stand ” 包含操作系统核心（Kernel）的有关文件。
“ /tmp ” 包含系统临时文件。
“ /dev ” 包含所有的设备文件，但它不是一个单独的文件系统，
它只是在根目录下的一个目录。

二、关于系统主控台Console的说明与设置
如果将我们诊断用户的故障电话进行分类，其中相当一部分的问题是出在Console的设置上。通常的现象是Console上没有系统显示，或是键盘被锁住等。用户往往认为是主机的问题，其实不然。下面我们简单介绍一下：
小型机控制台能正常运行的缺省配置是:
REMOTE MODE ON(带* 号)
MEMORY LOCK OFF(不带*号)
LINE MODIFY OFF(不带*号)
MODIFY ALL OFF(不带*号)
BLOCK MODE OFF(不带*号)
查看上述配置的方法，如下：
在小型机控制台的键盘上方有一排功能键F1－F8，在功能键F4与F5之间有Menu和User System两个键。当要查看小型机控制台的参数配置时，首先按User System键，这时在小型机控制台屏幕的最下面一行显示出8个高亮度的方块，每个方块从左到右分别对应功能键F1到F8；
再按功能键F4，表示选择Modes，依然是8个亮方块，但是方块上的文字改变了。依照上述5个参数的名称检查相应的方块，看是否正确地配置了。如果没有，按与方块对应的功能键进行改变，直到所有参数正确地配置好。最后按Menu键退出。
此外，这里介绍一种快速解决Console故障的方法：
1. 关闭Console电源
2. 摁住CTL+D键，开Console电源，直到听到“笛”声，松开按键。
3. 稍等片刻，在屏幕左下角将出现“Default configs used, Press enter clear”字样，按enter后一切恢复正常。
4. 如果F4键位置的Remote Mode没有*号，摁F4加上*
以上做法实质上是为了恢复 Console缺省设置。

三、系统的开关机和PDC简介
系统启动阶段的操作可用下述流程图来概括：

所以，一般地说，系统开关机应遵循以下步骤:
开机
1) 打开总电源。
2) 打开计算机机柜电源
3) 打开外部设备电源.(如磁盘阵列,磁盘柜等)
4) 打开主机电源.
关机
1) 进行操作系统的关闭(shutdown -h -y 0)
2) 关闭主机电源.
3) 关闭外设电源(对于Autoraid的磁盘阵列,需要对其进行软件关闭,才可关闭电源)
4) 关闭其他设备电源和总电源.
在启机过程中，当Console上出现10秒中断时，若敲击任一键，则启动过程将停在如下状态下：
main menu>
这就是所谓的 PDC ( Processor Denpendent Code )。在该状态下，系统管理员可完成如下管理工作：
1. 查看Primary，Alternate Boot Path
main menu> pa
就会列出 Primary，Alternate Path。
2. 搜寻硬盘等可Boot机设备
main menu>sea
系统会列出所有可由它控制的硬盘的硬件地址及CD-ROM、DDS和Build-in Lan的硬件地址。所以，有时可用此方式判断系统不能boot机是否与根盘有关。
3. 进单用户
main menu>bo pri
interact with ISL? yes
ISL>hpux –is
4. 检查HPMC代码
象诸如CPU、内存、总线等的硬件故障，都会产生HPMC(high priority Mechine Check ) Code，那么查看的方法是：
Main Menu>ser
Service Menu>pim
如遇硬件问题，您打电话到惠普响应中心，硬件工程师极有可能请您帮助获得HPMC Code。
5. 继续启动过程
Main Menu>bo pri
Interact with ISL? no
6. 此外，再介绍一下如何观察系统启动时行自检的相应信息
a、系统启动时的自检信息反映出自检的过程和结果，在主机的液晶屏上可以看到这些信息，比如“7XXX”，一般表示和内存有关的信息。这些信息都可以查阅有关的手册得知其具体的意义。
如果自检失败，相应的信息就会停留在主机的液晶屏上，根据这个信息就可以知道失败的原因。
b、机器启动之后，在CTRL＋B的SL命令可以看到最后50个信息，但是，随着CHASSIS信息的不断显示，自检信息就会被冲掉。因此，系统启动之后，这些信息就看不到了。
c、引导过程到硬盘时，会有配置硬件的信息，这些信息可以通过“#desg”命令和/usr/adm/syslog/syslog.log文件看到，相应运行级调用的shell程序过程可以在“ /etc/rc.log”中看到。
四、HP Secure Web Console 的配置与维护
HP 的Secure Web Console 为系统管理员提供了一个基于Web的、更为方便的接入Console的手段。系统管理员只需在任意一台能够ping通Web Con-sole的PC上，启动网络浏览器，输入Web Console的IP，即可得到服务器Console的界面。
配置Web Console，应按以下步骤：
1. 初始化Web Console：
1) 将Web Console接入局网。其预设置的IP地址为192.0.0.192。
2) 在您的PC上，运行以下命令：
route add 192.0.0.192 Local_IP_address
3) 确保能够ping 192.0.0.192。
4) 在PC上运行网络浏览器，输入URL：[url]http://192.0.0.192[/url]，得到Web Console配置菜单。按菜单提示输入Admin Account 用户名和密码，将其IP改为本局网IP地址（确保IP不要重复）和子网掩码。
2. 使用 Web Console
1) 用普通Console的串口线，一端接服务器Local Console口，另一端接 Web Console的串行口。
2) 在PC的浏览器上，输入 Web Console当前的IP地址。即进入其LOGIN窗口，按要求输入在配置时创立的Admin Account 用户名和密码；则进入服务器Console界面，用鼠标点击Access Console，黑色的Console窗口出现在屏幕右方；点击In/Out可放大Console窗口。

五、有关DDS磁带机
由于系统备份和恢复均需用到DDS磁带机，而磁带机方面的问题又在惠普响应中心所接的用户电话中占较大比例，其中又有一半以上的用户是由于使用不当，而造成的问题，所以介绍一下惠普的磁带机是相当有必要的。
本手册主要介绍如下两种磁带机：
－ SCSI－2 Digital Data Storage DDS
－ SCSI – 2 DDS –2

1. DDS1磁带机
1) 外形

1. 磁带灯 2. 磁带机灯 3.弹出按钮

2) 特点

〖1〗SCSI－2 接口
〖2〗未压缩数据容量：可读写DD-1 格式的磁带
＋ 60 米磁带－DDS－1＝1.3Gbytes
+ 90 米磁带－DDS－1＝2.0Gbytes
当采用压缩方式时，上述数据容量将提高2到4倍
〖3〗1Mbytes 数据 Buffer
〖4〗通过On-board Switch 或者程序可以将磁带机设置为DCLZ
数据压缩格式。
〖5〗同步数据传送率＝1.5 Mbytes
异步数据传送率＝5.0 Mbytes
〖6〗Power On 时，将进行自检

3) DDS Tape Drive 指示灯状态简介

指示灯状态
OFF

绿

淡×××

闪烁（绿）

闪烁（淡×××）

闪烁（绿＋淡×××）

磁带灯磁带机灯含义
读 / 写状态
插入或退出磁带
可以工作状态
工作状态
正常非工作状态

写保护状态
插入或退出磁带
可以工作状态

工作状态
正常非工作状态

Error 状态
磁带磨损
高湿度
自检（正常）
自检（失败）

〖备注〗〖1〗磁带磨损：需要清洗磁带机
〖2〗自检：power on 时，磁带机将进行自检

4) 写保护

5) 磁带机使用注意事项
【1】磁带使用次数：99次左右
【2】磁带机清洗频率：

次数 / 每天清洗间隔
1 每周
2 隔天
3 隔天
>=4 每天

【3】强制性退出磁带：
当按动“退出”按钮35秒后，磁带仍未退出，那么按住“退出”按钮至少5秒钟，可以强制性退出磁带。
2. DDS-2 磁带机
1) 外形

1- Tape drive door
2- 磁带状态灯
3- 清洗 / 提示灯
4- 弹出按钮

2) 特点
〖1〗SE SCSI-2接口
〖2〗未压缩数据容量：
可读写DD-1, DDS-2格式的磁带
＋ 60 米磁带－DDS－1＝1.3Gbytes
+ 90 米磁带－DDS－1＝2.0Gbytes
＋120米磁带－DDS－2＝4.0Gbytes
当采用压缩方式时，上述数据容量将提高2到4倍
〖3〗1Mbytes 数据 Buffer
〖4〗通过On-board Switch 或者程序可以将磁带机设置为DCLZ数据压缩格式。
〖5〗同步数据传送率＝3.0 Mbytes
异步数据传送率＝7.5 Mbytes
〖6〗Power On 时，将进行自检

3) DDS Tape Drive 指示灯状态简介

指示灯状态
OFF

绿

淡×××

闪烁（绿 1/2s on,1/2s off）

闪烁（淡×××）

快速闪烁（绿l/4s on, 1/4s off ）

磁带清洗 / 提示含义

插入或退出磁带

读写状态

可以工作状态

磁带需要清洗

需要更换磁带机

自检状态

4) 磁带机使用注意事项
【1】磁带使用次数：99次左右
【2】磁带机清洗频率：

次数 / 每天清洗间隔
4 每周
5 隔天
6 隔天
>=4 每天

【3】强制性退出磁带：
当按动“退出”按钮35秒后，磁带仍未退出，那么按住“退出”按钮至少5秒钟，可以强制性退出磁带。

3. DDS-3 磁带机
1) 外形

1- Tape drive door
2- 磁带状态灯
3- 清洗 / 提示灯
4- 弹出按钮

2) 特点
〖1〗SE SCSI-2接口
〖2〗未压缩数据容量：
可读写DD-1, DDS-2, DDS-3 格式的磁带
＋ 60 米磁带－DDS－1＝1.3Gbytes
+ 90 米磁带－DDS－1＝2.0Gbytes
＋120米磁带－DDS－2＝4.0Gbytes
当采用压缩方式时，上述数据容量将提高2到4倍
〖3〗1Mbytes 数据 Buffer
〖4〗通过On-board Switch 或者程序可以将磁带机设置为DCLZ数据压缩格式。
〖5〗同步数据传送率＝3.0 Mbytes
异步数据传送率＝7.5 Mbytes
〖6〗Power On 时，将进行自检

3) DDS Tape Drive 指示灯状态简介

指示灯状态
OFF

绿

淡×××

闪烁（绿 1/2s on,1/2s off）

闪烁（淡×××）

快速闪烁（绿l/4s on, 1/4s off ）

磁带清洗 / 提示含义

插入或退出磁带

读写状态

可以工作状态

磁带需要清洗

需要更换磁带机

自检状态

4) 磁带机使用注意事项
【1】磁带使用次数：99次左右
【2】磁带机清洗频率：

次数 / 每天清洗间隔
3 每周
4 隔天
5 隔天
>=4 每天
【3】强制性退出磁带：
当按动“退出”按钮35秒后，磁带仍未退出，那么按住“退出”按钮至少5秒钟，可以强制性退出磁带。

4. 磁带机设备文件命名简介
由于磁带机的设备文件有不止一个，而多数系统管理员对其不甚了解，所以在此举几个例子来逐一说明之：
/dev/rmt/c1t3d0BEST BEST = 使用可能的最高密度方式存储
/dev/rmt/c1t3d0sQIC150nb QIC-150格式, 不倒带, Berkeley
/dev/rmt/c1t3d0D8MM8500C (Names can be quite descriptive)
/dev/rmt/0m 最通用的方式
设备文件"dev/rmt/c1t0d0BESTnb" 的意义
dev = device file 设备文件
rmt = raw magnetic tape 磁介质磁带
c1 = 该磁带机连接在instance number 为1的bus上
t0 = 该磁带机的scsi id 为0
d0 = 该磁带机的unit address 为0,
BEST = 该磁带将以最大容量方式写数据
(meaning "pack as much onto this tape as is possible")
n = 当退带时，不倒带
b = 该设备将使用Berkeley形式
六、日常设备维护检查
1. 系统及网络状态的监测
主要监测以下几个方面：
 面板指示灯
 硬件在系统中的配置
 文件系统
 日志文件
2. 面板指示灯的监测
 液晶显示屏
如果系统启动时或运行中down机时，液晶显示停在某一非正常运行状态，如 FLT XXXX，或 INIT XXX，则表明可能有硬件错误 ( CONSOLE 上出现ERROR)
 前面板指示灯有：
a、磁带机驱动器、
b、光盘驱动器状态灯。
c、电源指示灯、
d、软(硬)驱动器指示灯。
一般情况下，×××指示灯不停闪烁，无法终止时表明可能有硬件故障。此时应尽快联系HP硬件工程师帮助诊断并维修。
 后面板指示灯有：
a、F/W SCSI接口卡终结器（TERM POWER-F/W DIFF SCSI）指示灯
ON：表示F/W SCSI卡配置的终结器工作正常
OFF：表示F/W SCSI卡配置的终结器保险丝损坏
b、SCSI接口卡自检灯(Self-Test LED)当硬件自检时灯闪烁，自检完成 (超过5秒钟)后灯灭，表示工作正常。当自检完成后灯仍亮则说明该卡有故障。
c、调制解调器:
Transmit灯: 有信号发出时发光
Receive灯: 接收信号时发光
d、网络接口卡:
K系列(如K210、K410) Transmit灯: 信号发出时发光
Link Beat灯: 接收信号时发光
D系列(如D350) Link Beat灯:
ON：表示网络通信正常
OFF: 网络通信可能有故障

e、HP服务支持MODEM各LED的含义：
TR: 传输状态 CD: 载波检测
OH: 在线连接 RD: 读入信号
AA: 自动应答 SD: 发出信号
3. 在系统中查找设备配置
# dmesg
内存
CPU
外设(I/O接口卡，磁盘设备etc.)
root,swap,dump设备分配信息
注:dmesg是从Kernel缓冲区里读出的数据

# ioscan -fn(扫描实际硬件)
# ioscan -kf(扫描Kernel I/O system)
内存
CPU
外设(I/O接口卡，磁盘设备etc.)
4. 检查文件系统使用情况
#bdf
Filesystem kbytes used avail %used Mounted on
/dev/vg00/lvol1 67733 35561 25398 58% /
/dev/vg01/lvol1 20480 11675 8247 59% /home
各列的含义：
Filesystem:文件系统名
kbytes:字节数，以k为单位
used:已使用空间
avail:尚可使用空间
%used: 已使用空间占本文件系统全部空间比率。
Mounted on: 安装目录
在下列两种情况下，系统管理员应考虑做必要的文件清理工作：
 ％used达到90%以上时
 avail显示字节数较小时(如小于10K)

5. 日志文件的监测
文件名文件内容监测方法
/etc/rc.log /etc/rc 运行记录用读取文本文件的方法
/var/adm/syslog/syslog.log 一般系统日志注意提示信息及对应的
/var/adm/sw/*.log 软件安装日志日期，分析发生的相关
/var/adm/wtmp 用户登录信息原因
/var/adm/btmp 用户登录失败信息
/var/sam/log/samlog SAM日志
/var/spool/mqueue/syslog sendmail日志
/etc/shutdownlog 关机(shutdown)信息
-------------------------------------------------------------------------------------------
/usr/adm/diag/LOGxxx 用工具查看
/var/adm/nettl.LOG* 网络日志由HP工程师负责
/var/adm/crash core dump文件

6. 文件清理
1) 日志文件：
系统管理员的一个主要工作就是周期性清除某些系统日志文件。
这些日志文件包括：
/var/adm/wtmp 所有的注册信息
/var/adm/btmp 所有的注册不成功的信息
/var/adm/sulog 执行su的情况
/var/adm/crash/vmunix.0 core dump文件（在HP工程师分析后再删除）
/var/adm/crash/core.0 core dump文件(在HP工程师分析后再删除)
/var/adm/syslog/mail.log 电子邮件方面的信息
/var/adm/syslog/syslog.log 系统一般信息，如配置改变情况等。
/var/adm/sw/swinstalllog 软件安装时产生的信息
/var/adm/sw/swremove.log 卸载软件时产生的信息
删除方法为：
# > 文件名或
# cat /dev/null > 文件名
注意: 清空文件前应确认文件是否无用

2) 文件清理
 core文件
# find / -name core -exec rm {}
 其他大文件
其查找方法为：
# find / -name （-size +n） -print
n=需查找文件大小bytes/ 512bytes
# du -s *
其删除方法为：
# rm 文件名
注意: 清空文件前应确认文件是否无用
3) 其他系统管理员可能用得上的小窍门
A) 超级用户忘了密码怎么办？
a、重起机器，自检完成后，会出现这一行“To discontinue, press any key in 10 seconds ”，这时你按任意键，系统会中止启动，进入 Main Menu.
b、键入“ bo ”, 在系统询问“ Interact with IPL (Y or N?)?”,输入 “y”。
c、在提示符ISL> 后，输入“ hpux - is ”, 系统进入单用户状态。
d、键入“ passwd ”, 然后输入新的密码。
e、键入“ reboot ”, 恢复系统正常运行。
B) 怎样通过联机帮助学会不懂的命令？
HP-UX提供了一个联机命令“man”，该命令用于帮助用户了解某个HP-UX命令的使用方法、命令的作用等等。
如下例，显示了HP-UX命令 who 的联机帮助信息：
#man who
who(1) who(1)

NAME
who - who is on the system

SYNOPSIS
who [-muTlHqpdbrtasAR] [file]

who am i

who am I
DESCRIPTION
The who command can list the user's name, terminal line, login time, elapsed time since input activity occurred on the line, the user'shost name, and the process-ID of the command interpreter (shell) for each current system user. It examines the /etc/utmp file to obtain its information. If file is given, that file is examined. Usually, file is /var/adm/wtmp, which contains a history of all of the logins since the file was last created. The who command with the am i or am I option identifies the invoking user.
C)、查看系统中安装了什么软件
查看系统中所安装的软件，我们可以用命令：
# swlist
D)、硬件路径(Hardware Path)的含义
硬件路径是指主机对其SPU与外设（I/O）进行管理的一种标识，是对设备总线结构与地址设置路径结构的标识，以便于确定硬件与诊断故障。不同设备的硬件路径不能相同，否则会造成中断冲突。不同机型由于总线结构不同，同类设备的硬件路径大相径庭。一般原则是，每次总线转换必须有一个反斜扛将上下级总线分隔开。
例如: 8/16/5.6.0 8--- 第一级总线 16--- 第二级总线
5--- 第三级总线卡号 6--- 地址
0--- 相应地址下第一个设备
E)、CodeWord的作用及怎样申请？
CodeWord是HP公司用来进行用户权益及软件版权保护的一种方法。当用户购买了HP公司的软件产品时，会得到若干张CD介质-Applica-tion盘。在Application盘中，包含有未加密的软件和加过密的软件。加密软件是用户另外付款购买的软件，为保证用户权益及软件版权得到保护，HP只将解密用的密钥－Code Word，交给购买软件的最终用户。
当用户收到 Application 盘的同时，还会收到一个用红色字 “IMPORTANT”标注的大信封。信封内装的是CodeWord的申请表。申请时将操作系统介质的CD盘号和Application盘（每一张）的盘号填在申请表中，再将如何接收CodeWord的方式（FAX或E－mail）填进表中；然后，将申请表用传真发到申请表上指定的传真机。一般情况下，第二天即可收到CodeWord。
在收到的CodeWord表中，会标明哪个CodeWord对应哪个软件并且该软件在哪一张 Application 盘上。安装软件时将 Application 盘放入CD-ROM驱动器；执行swinstall命令；在Action菜单里，选Input New Code Word项，输入CodeWord。完成后，在可安装的软件窗口中就可看到解密后的软件；选中该软件，然后进行安装。

第四章、系统备份与灾难恢复

一、系统备份与恢复常用命令
1. fbackup & frecover
A、系统备份命令： fbackup

1) fbackup的常用方式一：
[1] 进入单用户：
# init –s 或
# shutdown 0
[2] 系统全备份
# fbackup –f /dev/rmt/0m -0iv / -I /tmp/sysbk.index
-f : 设备文件名 ( such as DDS tape driver)
-i : 要包含的目录
-e: 不包含的目录
- I: 备份内容检索目录
- v: 备份内容详细列表
- 0 : 零级备份
# fbackup –f /dev/rmt/0m -i / -e /home
备份除了目录 /home的所有目录
[3] 说明
a、该命令方式对系统当前mounted的文件系统进行备份
b、备份级别说明
备份级别有0～9个级别，如果当前系统采用零级备份，当下一次采用5级备份时，系统仅将会对有变化的文件进行备份。
2) fbackup的常用方式二：
〖1〗 # mkdir -p /tmp/fbackupfiles/index
# mkdir -p /tmp/fbackupfiles/log
〖2〗 # touch/tmp/fbackupfiles/index/full.`date’+%y%m%d.%H:%M’`
〖3〗进入单用户
# shutdown –y 0
〖4〗对系统进行全备份
# fbackup –0vi / -f /dev/rmt/0m \
-I /tmp/fbackupfiles/index/full.`date ’+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’`
〖5〗说明
通过该方式可以知道系统备份需要的时间
3) fbackup的常用方式三：
〖1〗进入单用户
# shutdown –y 0
〖2〗对系统进行全备份
# fbackup –0uv / -f /dev/rmt/0m \
-g /tmp/fbackupfiles/mygraph \
-I /tmp/fbackupfiles/index/full.`date ’+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’`
〖3〗说明
a、文件 mygraph: 包含需要备份的目录，格式如下：
/users/data
/home/app
e /oracle/sql
b、参数 u :
当备份系统成功时，系统将更新 /var/adm/fbackupfiles/dates.
4) fbackup的常用方式四：
备份远程系统
[1] 登录在本地系统时
# remsh backup_sysname ” fbackup –f DDS_sysname: /dev/rmt/0m -0vi / ”
[2] 登录在远程系统时
# fbackup –f backup_sysname: /dev/rmt/0m –0vi /
5) fbackup的常用方式五：
压缩方式备份( 不建议使用、影响系统性能)
[1] 压缩方式备份
# fbackup –0vi /dir -f - | compress | dd of=/dev/rmt/0m obs=10k
“－” : 指向标准输出
[2] 查看备份内容
# dd if=/dev/rmt/0m ibs=10k | uncompress | frecover –I - -f -

B、系统恢复命令： frecover
1) 恢复磁带机上所有内容：
[1] 进入单用户:
# init –s or shutdown 0
[2] 恢复数据
# frecover –rf /dev/rmt/0m
恢复磁带上的所有数据
-f: 设备文件名
-r: 恢复磁带上的所有数据
-I: 将磁带上文件索引存到指定的文件中
# frecover –I /tmp/index.txt -f /dev/rmt/0m
2) 恢复某一目录：
# frecover -xi /directory
# frecover –x -i /dir1 -i /dir2
# frecover -xoi /dir
-o: 覆盖/dir下已有的、相同名称的文件
# frecover -xvXi /dir
-X: 按磁带上目录恢复数据
# cd /tmp/local; frecover –xvYi /dir
-Y: 按磁带上文件名恢复数据
例如：
# cd /tmp/local
# frecover –xvF -i /home/filename
[恢复结果] /tmp/local/filename 不是 /home/filename
3) 从远程磁带机上恢复数据到本地：
# frecover –xi /dir –f remote_name : /dev/rmt/0m
4) 从本地磁带机上恢复数据到远地系统：
# remsh remote_name ”frecover –xi /dir -f local_name:
/dev/rmt/0m”
2. tar 命令
1) 对系统全备份
# tar cvf /dev/rmt/0m /
2) 备份某目录
# tar cvf /dev/rmt/0m /tmp
3) 改变文件的备份路径
# tar cvf /dev/rmt/0m -C /tmp .
注意 : 路径 /tmp 在磁带上的备份路径变为 ./
# cd /tmp
# tar cvf /dev/rmt/0m ./*
4) 恢复数据
# tar xvf /dev/rmt/0m (磁带上所有数据)
# tar xvf /dev/rmt/0m /tmp ( 恢复目录 /tmp )
5) 查看磁带上的数据
# tar tvf /dev/rmt/0m

3. SAM
1) 备份数据
# sam
-----> Select “ Backup and Recovery “
----->Select “ Interactive Backup and Recovery “
---- >Select “ Backup Device “
---- > Select “ Backup Files Interactively “ ( From [ Action ] menus )
----- > Select Backup Scope
----- > Select Local File Systems Only ( no NFS )
----- > Select “ OK “
2) 检查备份的数据
[1] 检查文件 /var/sam/log/br_log

注意：如果 Exit code=2，指示在备份过程中有问题。
[2] 查看磁带上有那些文件
# frecover –rNsv –f /dev/rmt/0m
4. Copyutil
1) 如何启动 “ Copyutil “
[1] 从CD boot , 进入ISL
BOOT_ADMIN>boot scsi.n.m ( path of CDROM drive----such as scsi.4.0)
[2] ISL>ode copyutil
Type help for command information
[3] ISL_CMD>copyutil
please wait while scan device bussess…

TY Indx Path Product ID Bus Size Rev

D 0 16/5.6.0 SEAGATEST31230N disk drive SCSI 1.0 GB HPM4
D 1 16/5.5.0 SEAGATEST31230N disk drive SCSI 1.0 GB HPM4
T 2 16/5.0.0 HPC1504[X]/HPC1521B DDS tape SCSI n/a 1009

2) 备份系统硬盘上的所有数据
COPYUTIL>backup
Enter the disk index ([q]/?): 0
Enter the Tape index ([q]/?): 2
Use data compression? (y/[n])? Y
When backup finished, system will show: DONE!
COPYUTIL> exit
3) 恢复数据到指定的系统硬盘上
COPYUTIL> restore
Enter the Tape index ([q]/?): 2
Enter the disk index ([q]/?): 0
Use data compression? (y/[n])? Y
After system display: Restored Successful, that means restore is finished!
COPYUTIL> exit
4) 注意：
当用copyutil备份Root Disk到相应的磁带时，该磁带可以作为bootable磁带使用
5. make_recovery
1) 安装 “Ignite-UX application”
[1] 从 “ HP-UX Application CD-ROM “ 上安装
1) # swinstall
2) “Mark” [A. 1.53 HP-UX Installation Utility( Ignite-ux for 10.20)]
3) “Analysis”
4) “Install”
[2] 从 WebSite 下载并安装:
a、 [url]http://www.software.hp.com/ [/url]
Select : “ Network & System administration ”
Download: “ ignite-ux_10.20.tar”(10.20 为 OS 版本)
b、从硬盘上安装：
# cd /tmp
# tar xvf /dev/rmt/0m ./ignite-ux_10.20.tar
# swinstall –s /tmp/ignite-ux_10.20.tar
c、从磁带上安装：
# dd if=/tmp/ignite-ux_10.20.tar of=/dev/rmt/0m bk=2
# swinstall –s /dev/rmt/0m
[3] make_recovery:
/opt/ignite/bin/make_recovery [-AprvC] [-d destination] [-b boot_destination]
-A : 指定要备份整个Root disk / Volume Group
-p : 预览备份过程，并不创建 Bootable DDS Tape
a. 确认 /var/opt/ignite/recovery/mkrec.append 文件
b. 创建 /var/opt/ignite/recovery/arch.include 文件
-r : 使用 –p 选项后，可以用该选项创建 Bootable DDS Tape
a. 该选项可以识别/var/opt/ignite/recovery/arch.include文件
-v : 用于显示备份过程的提示信息
-d : 指定DDS 的设备文件名 ( default: /dev/rmt/0mn )
-b : 指定系统备份过程中，用到的临时文件
(default: /var/tmp/uxinstlf recovery )
该文件大小为32M，对系统进行make_recovery时，要注意 /var文件系统的大小，当/var文件系统大小不足时，可用如下命令对系统进行备份：
# make_recovery –A -C -b /tmp/uxinstlf.recovery
-C : 创建反映系统当前状态的文件：
/var/opt/ignite/recovery/makrec.last
如果该文件存在，那么可以用 check_recovery 命令
[4] 注意：
用make_recovery备份的磁带是bootable 磁带，用它可以安装OS。
2) 备份系统Root Disk
[1] 创建“最小”OS 的 bootable DDS tape (default 设备文件: /dev/rmt/0mn)
# make_recovery
[2] 创建“最小”OS的 bootable DDS tape
(设备文件:/dev/rmt/c0t1d1BESTn)
# make_recovery –d /dev/rmt/c0t1d1BESTn
[3] 先预览，再创建 bootable DDS tape
# make_recovery -p
# vi /var/opt/ignite/recovery/arch.include
# make_recovery -r
[4] 复制整个 Root Disk
# make_recovery -A
[5] 复制整个 Root Disk, 且生成反映系统当前状态的文件:
( /var/opt/ignite/recovery/makrec.last )
# make_recovery -C -A
[6] 实例分析：
(1) 系统文件系统：
Filesystem kbytes used avail %used Mounted on
/dev/vg01/osdepot 2621440 2530838 84872 97% /osdepot
/dev/vg01/lvol1 480341 58696 373610 14% /var
/dev/vg01/lvol7 378965 297521 43547 87% /usr
/dev/vg01/lvol6 588643 245540 284238 46% /opt
/dev/vg00/lvol3 107669 38577 58325 40% /
/dev/vg00/lvol1 67733 12409 48550 20% /stand
/dev/vg00/lvol4 30597 19 27518 0% /tmp
/dev/vg00/lvol5 19861 1416 16458 8% /home
(2) 分析：
[a] make_recovery:
vg00: /stand, /sbin, /dev, /etc, /tmp, /home
vg01: parts of /opt and /var (see Core-OS list)
/usr/bin, /usr/lib
/usr/obam, /usr/sam,
/usr/share, /usr/ccs,
/usr/conf, /usr/lbin,
/usr/contrib, /usr/local,
/usr/newconfig
[b] make_recovery -A:
vg00: 备份Root Volume Group 上的所有数据
vg01: 备份non-Root volume Group 上的所有数据
只有当/usr 位于non-root volume group时，
该 non-root volume group 上的所有数据也将
被备份到磁带上
3) 恢复磁带上的所有数据
(1) 非交互式恢复系统
[1] 在磁带机中，插入系统恢复带
[2] Boot 系统
[3] 中断Boot 流程，进入 Boot_admin> 提示下
[4] Boot_admin> bo 8/16.0.0
8/16.0.0: 磁带机的 hardware path
[5] 选取 “ non-interactive ”
[6] 等待系统恢复完毕
(2) 交互式恢复系统
[1] 在磁带机中，插入系统恢复带
[2] Boot 系统
[3] 中断Boot 流程，进入 Boot_admin> 提示下
[4] Boot_admin> bo 8/16.0.0
8/16.0.0: 磁带机的 hardware path
[5] 不选取 “ non-interactive ”
[6] 选取
a. [ Install HP-UX ]
b. [ ] Advanced Installation
c. 配置或改变如下选项：
disks, file systems,
hostname, IP ddress,
timezone, root password,
DNS server, and gateway
[7] 选取 [install continue… ]，直到系统恢复完毕

二、系统备份 / 恢复方法及策略
1. 系统备份的策略
1) HP-UX Core-OS:
这部分内容主要包括一些HP-UX用到的文件系统，如 /、 /opt、 /var、 /tmp、/usr、/home、/stand 。通常这些文件系统位于vg00中。
备份的方法：
(a) #backup :
# fbackup –0vi / -f /dev/rmt/0m \
-I /tmp/fbackupfiles/index/full.`date ’+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’
详见（ fbackup的常用方式二）
(b) make_recovery ：
# make_recovery –C -A -b /tmp/oslif.rec
详见 ( make_recovery)
2) 系统配置文件
对于系统一些关键性的文件或信息需要单独进行备份这样有利于对系统进行恢复。这些文件或信息包括：
(a) 系统Swap 信息
# swapinfo –t
(b) 系统文件系统信息
# bdf
(c) 系统的 I / O 信息
# ioscan –fnCdisk
(d) /etc/fstab
(e) 系统逻辑卷配置文件
/etc/lvmconf/vg00.conf 、vg01.conf、vg02.conf
这些逻辑卷配置文件可以用命令:
vgcfgbackup / vgcfgrestore 生成和恢复
(f) 利用HP的Tools 收集和备份系统的配置信息
这些Tools 包括：LVMcollect.10
collect.sh
capture.sh
collect.conf
备份的方法：
(1) tar
# tar cvf /dev/rmt/0m ./vg00.conf ./vg01.conf
(2) fbackup
# fbackup –f /dev/rmt/0m –i /etc/lvmconf/vg01.conf
3) 系统其它逻辑卷 ( 如：vg01 、vg02)
备份的方法：
(1) fbackup :
# fbackup –0uv / -f /dev/rmt/0m \
-g /tmp/fbackupfiles/mygraph \
-I /tmp/fbackupfiles/index/full.`date ‘+%y%m%d.%H:%M’` \
2 > /tmp/fbackupfiles/log/ full.`date ’+%y%m%d.%H:%M’`
(2) tar
# tar cvf /dev/rmt/0m /oracle/app /home/oracle
4) 数据库的备份
请参照数据库的备份方法
2. 系统恢复的策略
1) 用fbackup / tar 对系统进行备份时
1) Install Core-OS
2) 恢复vg00 / vg01 / vg02 的备份内容
# frecover –o –r –f /dev/rmt/0m
2) 用make_recovery 对系统进行备份时
(a) 用磁带boot system, 恢复vg00
详见 make_recovery 的恢复方法
(b) 恢复其它逻辑卷
# frecover -o –r -f /dev/rmt/0m

第五章、有关HP双机热备软件

MC/ServiceGuard的用法

MC / ServiceGuard ( Multi-Computer / ServiceGuard ) 是 HP 推出专门用来保护关键业务应用免遭软、硬件故障影响的特殊软件。
使用MC/ServiceGuard，多个节点 (系统)被组织成一个企业群集，为本地网 (LAN) 上的客户机提供高可用性的服务。MC/ServiceGuard监视程序监视每一个节点状态，并且对出现的故障很快做出反应，使应用程序的停顿成为最小。
MC系统切换发生在两种情况下：一种情况是由于系统的硬件出现故障或者应用程序故障，此时的切换是自动进行的；另一种情况是根据实际操作环境需要进行人为地切换。有两种办法来实现后一种切换。
方法1 使用cmhaltnode 命令来停止运行有程序包的节点。
# cmhaltnode -f nodename
这样，在停止该节点的同时，应用程序包会自动迁移到另外一个节点上。
方法2 使用cmhaltpkg 来起停应用程序包
1.用 cmhaltpkg 命令来停止需要迁移的程序包
# cmhaltpkg pkgname
2.用cmrunpkg 来重新在别的节点上运行程序包
# cmrunpkg -n nodename pkgname
3.用 cmmodpkg 修改切换属性
# cmmodpkg -e pkgname
一般来说，建议采用方法2
下面介绍几个系统管理员用得上的、有关MC的命令：
一、手动启动MC/SG
Start SG daemons and form a new cluster
#cmruncl [-f] [-v] [-n NN...]
[-f] Force cluster startup without warning message
[-v] Verbose output
[-n ] specific name(s) of node(s) to
二、单点启动后，加入另一个节点：
Start SG daemon on node(s) and join a cluster
# cmrunnode [-v] [NN...]
[-v] Verbose output

三、实现节点切换
切换分两种：本地切换 ( Local Switch ) 和切换 ( Switch )
当主节点出现网卡故障(MAC address or Hardware State Down)时，首先会进行本地切换，备份网卡开始工作；如果此时备份网卡也有故障，则系统会进行切换，备份节点接管工作。
可以手工模拟这些故障进行故障诊断或检测。
四、监测 Cluster 运行状态
view information about the current SG cluster
# cmviewcl [-v] [-n NN]... [-p PN]... [-l {package|cluster|node}]
[-v] Verbose output
[-n ] View information only about the specific node_name(s).
[-p package_name... View information only about the specific
package_name(s).
[-l] pkg|clus|node Display only package, cluster or node specific
information.
五、停止 Cluster 运行
halt SG cluster daemons
# cmhaltcl [-f] [-v]
[-f] Force the cluster to shutdown even if packages are currently running.
[-v] Verbose output
六、停止运行某个节点而 Cluster 在其它节点继续运行
halt SG daemon on node(s) and leave the cluster
# cmhaltnode [-f] [-v] [NN...]
[-f] Force the node to halt even if there are packages running on it.
[-v] Verbose output
七、在 Running Cluster 中运行某一个包
run a SG package
# cmrunpkg [-n NN] [-v] PN...
[-n ] Act on a specific node.
[-v] Verbose output

八、停止一个运行中的包
halt a SG package
# cmhaltpkg [-n NN] [-v] PN...
[-n ] Act on a specific node.
[-v] Verbose output
九、改变一个包的切换属性
enable or disable switching attributes for a SG package
# cmmodpkg [-v] [-n NN]... {-e|-d} PN...
[-v] Verbose output
[-n ] Modify attributes on specific node(s) - else globally mod.
-e enable
-d disable
PN - package(s) whose switching attributes are changed
注：CN = cluster_name NN = node_name PN = package_name
Explainations: ... = multiple occurences | = OR [descriptor] = optional

后续

最后，作为系统管理员，您最关心的一定是产品保修期结束后，如何能继续得到惠普的高品质支持服务？
用户产品保修期结束后，用户如果仍想得到惠普的高品质支持服务，那么Unix系统支持服务合同便是当然之选了。
Unix系统支持服务合同是为了满足用户对Unix系统支持服务方面的需求，由中国惠普公司用户支持部向用户提供最为适合自己需求的服务。
目前，中国惠普公司用户支持部向客户提供的支持服务合同有H5351A，H5355A，H5356A等多种。
H5351A提供高质量的硬件支持以使用户提高工作效率，并增加计算机系统的运行时间。用户可以根据自己的需要灵活选择服务时间范围，硬件故障的现场响应时间等。
H5355A向客户提供高质量的硬件、软件及网络支持，使用户提高工作效率并增加计算机系统的运行时间。用户可以根据自己的实际情况灵活选择服务时间范围及硬件故障的现场响应时间。而其所提供的完整的软件维护支持，增加了用户系统及应用软件的可用性。惠普响应中心的工程师与用户的系统管理员及操作员一起工作，以解决HP的软件问题，而且通过使用先进的远程支持工具，可以远程连接到客户的系统，并进行远程诊断，尽快解决问题。如果用户选择H5355A的网络支持作为选项，H5355A将解决客户的网络故障(通过远程或是现场，并保存客户完整的网络环境记录。
H5356A向客户提供的是依据客户系统的配置和特点而制定的系统整体维护服务。为了向客户提供这种整体系统维护服务，惠普公司用户支持部将配有责任工程师，提供硬件、软件以及网络支持一体化的服务。这样就使得客户拥有了一支专业化的系统维护服务队伍。选择H5356A后，由于有一支经验丰富的支持服务队伍为客户提供服务，因此将极大地提高用户计算机系统的可用性和工作队伍的效率。由于普惠工程师对客户的业务及计算机系统十分了解和熟悉，并通过定期的系统检查发现并解决潜在问题，减少了系统的故障时间；增加了系统的正常运行时间；而且一旦发生故障，能够及时准确地排除故障，恢复系统的正常运行。这样就使得H5356A的客户能够有更多的时间来考虑企业自身业务密切相关的各种技术问题，而不是忙于处理计算机系统本身的问题。
H5356A系统整体维护服务的客户也可以依据自己的业务需求，灵活选择硬件故障的现场响应时间。

此为搜集转载文章，希望能给大家更快捷的帮助，分享共勉