VERITA备份日常监控
1. 日常检查流程
1)确认VERITAS NBU进程状态
2)确认备份任务状态
3)确认磁带、磁带机的工作状态
4)确认文件系统状态
5)磁带机清洗
VERITA备份日常监控
1. 日常检查流程
1)确认VERITAS NBU进程状态
2)确认备份任务状态
3)确认磁带、磁带机的工作状态
4)确认文件系统状态
5)磁带机清洗
2. 相关检查命令
启动NBU的图形管理界面:
/usr/openv/netbackup/bin/jnbSA &
1) 检查NBU进程状态:
需要每天监控activity monitor,确认在备份服务器上运行的进程有:avrd、vmd、tldd、ltid、bprd、nbdbd、bpdbm、bpsched、bpjobd。
如果前四个进程avrd、vmd、tldd、ltid有一个没有运行,则备份系统工作不正常。
简单的处理方法:重新启动NBU服务器进程
方法如下:
a)退出NBU的java管理界面,以root身份在命令行状态下输入:netbackup stop
b)使用bpps –a检查上述进程的状态
c)如果进程没有被kill干净,继续执行netbackup stop命令。
d)如果无法结束所有的进程,需要使用bp.kill_all来进行终结。
e)当使用bpps –a看到没有NBU的进程输出时,表明所有的NBU进程已经结束。使用命令:netbackup start启动NBU进程,并用bpps –a确认。
f)如果问题依然存在,请与厂家联系检查VERITAS工作状态。
2) 检查备份任务状态。
需要每天监控activity monitor,观察已经发生备份的任务状态返回值,返回值为0表明备份成功;如果返回值不为0,表明备份失败。对于数据库Archivelog的备份,由于备份的频率目前设置为每一小时一次,因此如果在下面的备份作业中,如果Archivelog的备份成功,可以忽略上面错误的备份。
典型的备份错误有:
a)
Archivelog备份返回值为1,而且后续的备份均返回1。
通常情况,需要进行Oracle 数据库的Archivelog同步。
Oracle数据库Archivelog同步的方法为:
以Oracle数据库用户登录到Oracle数据库服务上,通过RMAN来运行下面的命令:
$ su – oracle
$ rman
RMAN> connect target /
RMAN> change archivelog all validate;
RMAN> exit
b)
备份作业返回值为41、54。
检查服务器网络工作状态:
首先找到备份失败的服务器IP地址,确认IP地址可以ping通。
使用telnet工具,进行如下操作:
# telnet 服务器IP地址 13782
如果返回信息如下,表明VERITAS NBU通信正常。
Trying...
Connected to 服务器IP地址.
Escape character is '^]'.
如果系统直接返回到命令行状态,请检查问题服务器的service和inetd设置,确保bpcd进程存在。
并使用如下命令检查bpcd的工作状态:
# netstat |grep bpcd
c)
备份作业返回96、219。
请检查磁带机、磁带的工作状态
3) 检查磁带和磁带机状态:
磁带机和磁带常见的错误为96、219,需要确认磁带机状态是否up,磁带库是否闪红灯,使用bpmedialist命令查看是否磁带已经写满或者处于frozen状态,磁带是否卡在了磁带机里。
如果磁带显示frozen,可以使用bpmedia –unfreeze –m labelid来清除此状态,如果磁带反复显示frozen,可能磁带坏,请与厂家联系磁盘检查。
补充:可以在java界面中选择“Media and Device Management”来查看现在media分配的情况。
观察磁带机工作状态的方式有2种:Java GUI界面和命令行。
a)
Java GUI界面方式:
在Java GUI界面下,可以在Media and Device ManagementàDevice Monitor选项中,观察到磁带机的状态。例如磁带机正在使用中、磁带机DOWN、磁带机空闲等。
b)
命令行方式:
使用命令行方式观察磁带机的状态,相关的命令有vmdareq、vmoprcmd。
如果观察到磁带机DOWN,建议先检查是否有卡带现象。确定没有卡带现象后,可以做简单的磁带机UP操作。磁带机UP操作可以通过上面所述的Java GUI界面和命令行方式来执行。命令行方式举例如下:
# vmoprcmd –h hostID –up driveID
其中,hostID是SSO服务器名称,driveID是磁带机的序号,目前备份系统中2台磁带机的序号取值为0和1。
经过简单UP后,如果磁带机仍然出现DOWN现象,请与厂家联系解决。
4) 检查文件系统状态
在备份服务器和其它服务器上使用如下命令
# df –k
确认文件系统有可以使用的空间。文件系统如果写满,备份系统将工作不正常。
备注:
如果经过了很长时间(如7,8个小时)一个备份任务一直处于active或者queued状态,同时显示此任务的字节数没有增长,需要把此任务kill掉。因为这样会阻止下一个任务的执行。
--------------------------------------------------------------
NBU常用的命令
1. 在命令提示符下输入available_media,查看当前磁带使用情况
2. 在命令提示符下输入bpmedialist命令查看当前磁带使用情况及是否冻结
3. 在命令提示符号下输入bpexpdate –m a00001 –d 0来使磁带过期
4. 在命令提示符号下输入bpmedia –unfreeze –m a00001来使磁带解除冻结状态
5. 在命令提示符号下输入vmquery –m a00001来查看磁带的归属情况
6. 在命令提示符号下输入vmquery –deassignbyid a00001 4 0来取消磁带的分配日期
7. 在命令提示符号下输入bprecover –l a00001 –d hcart来查看catalog磁带中的内容
8. 在命令提示符号下输入bprecover –r a00001 –d hcart来恢复catalog
9. 在命令提示符号下输入bpexpdate –backupid wbs_1039674374 –d 0来删除一个备份影像,其中wbs_1039674374是backupid,可以通过report中的Images on Media报告来查看backupid
10. 如何收集NBU备份服务器的相关信息
查看并导出所有备份策略内容到c:bppllist1.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bppllist -allpolicies -L -verbose >c:bppllist1.txt
11. 列出当前存储单元并导出内容到c:bpstulist1.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bpstulist -L -verbose >c:bpstulist1.txt
12. 查看磁带使用情况并导出内容到c:available_media.txt:
C:Program FilesVERITASNetBackupbingoodies>available_media >c:available_media.txt
13. 查看磁带归属情况:
显示所有卷并导出内容到c:vmquery.txt:
C:Program FilesVERITASVolmgrbin>vmquery -a >c:vmquery.txt
14. 列出卷池并导出内容到c:vmpool.txt:
C:Program FilesVERITASVolmgrbin>vmpool -listall >c:vmpool.txt
15. 列出license导出内容到c:nbulicense.txt:
C:Program FilesVERITASNetBackupbinadmincmd>bpminlicense -list_keys> c:nbulicense.txt
其它信息请用nbsupport170工具收集。方法是解压缩nbsupport170
.zip到备份服务器上某个临时文件夹,运行nbsupport.exe,然后在当前文件夹下的output中会生成一个.cab打包文件。所有与备份服务器运行相关的信息文件全在里面。
nbsupport170工具可以向veritas技术支持中心获取。
Veritas常用命令-原创
Veritas常用命令:
1. 查看当有运行的任务
bpdbjobs –report | grep Active
2. 停止任务
bpdbjobs –cancel PID (包括主任务和子任务)
3. 开始任务
bpbackup –i –p task_name(如bss_archive_backup)
4.查看所有在用的驱动器和磁带
vmoprcmd –h media_server_hostname
5.查看pool所含的磁带(包括freeze)
bpmedialist
6.Freeze磁带
bpmedia –freeze –m media_id –h media_server_hostname
bpmedia -h hostname |grep FROZEN
7.查看error解释
bperror –S media_id
8.查看在驱动器的磁带
robtest 1
s d
查看slot中的磁带
robtest 1
s s
将带子从驱动器的移走
m d驱动器号 s槽号
9.查找某一盘磁带
在MASTER上 vmquery –m media_id
10.测试IBM磁带库
lsdev –Cc tape
tapeutil
1
/dev/rmt1
11.查看某个时间段的备份情况
bpimagelist –U –d 08/20/2004 00:00:00 –e 08/21/2004 00:00:00
12.查看备份策略
bpplist
13.通过bpps –a 确认veritas进程(SAN Media)已停止
netstat |grep bpcd 查看bpcd监听进程(client)
14.UP驱动器或重启驱动器
vmoprcmd –up no.
vmoprcmd –reset no.
15.将带子从pool中移走
bpexpdate –m media_id –d 0 –host hostname
16.查看磁带中的内容
C:Program FilesVeritasNetBackupbinadmincmd>bpimmedia.exe -mediaid v321l4 -L
Backup-ID Policy Type RL Files C E T PC Expires
Copy Frag KB Type Density FNum Off Host DWO MPX Expires RL MediaID
------------------------------------------------------------------------------------------------
STCS-PRDBAK_12588626 STCS-MES-P UBAK 3 1 N N R 1 12:03 12/23/2009
1 1 7456 RMed hcart 4 125847 stcs-mesba 528 N 12:03 12/23/2009 3 V321L4
STCS-PRDBAK_12588624 STCS-MES-P UBAK 3 1 N N R 1 12:00 12/23/2009
1 1 3359008 RMed hcart 3 73360 stcs-mesba 528 N 12:00 12/23/2009 3 V321L4
STCS-PROBAK_12588212 STCS-MES-P UBAK 3 1 N N R 1 00:33 12/23/2009
1 1 8992 RMed hcart 2 73217 stcs-mesba 528 N 00:33 12/23/2009 3 V321L4
STCS-PROBAK_12588210 STCS-MES-P UBAK 3 1 N N R 1 00:30 12/23/2009
1 1 4685600 RMed hcart 1 2 stcs-mesba 528 N 00:30 12/23/2009 3 V321L4
----------------
1. Solaris下:
/usr/openv/volmgr/bin/sgscan changer 查看本机所有Robot设备;
/usr/openv/volmgr/bin/sgscan tape 查看本机所有的磁带驱动器。
/usr/openv/volmgr/bin/sgscan disk 查看本机所有的disk,包括本地磁盘和共享磁盘。
2. robot及磁带驱动器配置:
/usr/openv/volmgr/bin/tpconfig 提供add ,delete,list NBU可以识别并使用的物理设备。
/usr/openv/volmgr/bin/stopltid
/usr/openv/volmgr/bin/stopltid <参数> :当修改配置后请重启:ltid(设备管理进程)。
tpconfig: 可以进入文本菜单。 先配置robot,再配置磁带驱动器。
/usr/openv/volmgr/bin/tpconfig -d 可以查看磁带驱动器及robot细节情况。
当配置完成之后,一定要重启ltid进程。
#robtest
# tpconfig -d
Id DriveName Type Residence
Drive Path Status
****************************************************************************
0 HP.ULTRIUM3-SCSI.000 hcart3 TLD(0) DRIVE=1
/dev/rmt/0cbn UP
/dev/rmt/1cbn UP
Currently defined robotics are:
TLD(0) robotic path = /dev/sg/c0tw500110a0009485aal1
EMM Server = dcd-bjgglc-logcdr
3. 名词介绍:
image: 镜像:一个客户端在一次备份中所有数据的集合。
storage unit: 存储单元:保存备份的逻辑位置,可以是磁盘也可以是磁带。
volume: 卷: 每一个磁带一个编号,称为一个卷。
volume: 卷池:一组卷的集合,在备份时需要指明卷池,netbackup会自动维护卷池中的所有卷。
backup policy: 备份策略:4方面:数据保存在哪个存储单元,什么时段运行,备份哪些client的数据;
需要备份的数据的位置。
4. netbackup 进程维护
/usr/openv/netbackup/bin/bpps -a 查看netbackup 所有进程,也可以通过图形界面查看Daemons状态。
bp.kill_all 启动netbackup (netbackup stop)
bp.start_all 停止netbackup (netbackup start)
jnbSA % 启动netbackup图形化界面.
5. 磁带维护
/usr/openv/netbackup/bin/goodies/available_media:
以root用户运行,可以查看磁带的状态等等信息;
status: full,active,available,frozen,dbbackup.
当有磁带frozen时,可以用:bpmedia -unfreeze -m A00006,对磁带进行解frozen;
当磁带反复frozen时,请检查是否有坏,或是此磁带是清洗带。
过期磁带: bpexpdate -m media_id -d 0 eg: bpexpdate -m NU06CU -d 0 使磁带可重写。
bpexpdate -backupid eel_0904219764 -d 0 删除备份
bpexpdate: -m -d
[-host ] [-force] [-nodelete] [-notimmediate]
[-M <master_server,...,master_server>]
bpexpdate: -deassignempty [-m ] [-force]
[-M <master_server,...,master_server>]
bpexpdate: -backupid -d
[-client ] [-copy ] [-force] [-nodelete] [-notimmediate]
[-M <master_server,...,master_server>]
bpexpdate: -recalculate [-backupid ] [-copy ]
[-d ] [-client ]
[-policy ] [-ret ] [-sched ]
[-M <master_server,...,master_server>]
bpexpdate: -stype
[-dp [-dv ]]
[-nodelete] [-notimmediate]
[-M <master_server,...,master_server>]
legal values for sched: 0=full,1=differential incr,2=user,3=arch
4=cumulative incr
bplist:
#bplist -C dcd-bjgglc-rac03-vip -t 4 -l -R 4代表oracle
# bplist --help
bplist: unrecognized option --help
USAGE: bplist [-A | -B] [-C client] [-S master_server]
[-t policy_type] [-k policy] [-keyword "keyword phrase"]
[-F] [-R [n]] [-b | -c | -u] [-l] [-Listpolicy] [-Listseconds]
[-r] [-T] [-I] [-PI] [-unix_files | -nt_files] [-flops file_options]
[-s yyyy-mm-dd [HH:MM:SS]] [-e yyyy-mm-dd [HH:MM:SS]] [filename]
bpmedialist -l: 查看磁带信息。
bplabel: 对磁带进行label : 有三种方式 :quick erase; long erase; NBU label;
/usr/openv/netbackup/bin/admincmd/bplabel -erase -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -erase -l -o -m -d hcart -p NetBackup -host
/usr/openv/netbackup/bin/admincmd/bplabel -m -d hcart -o -p NetBackup [-n drive_name | -u device_number] -host
对磁带label 可以检查,磁带是否有问题,时间也很快。
/usr/openv/netbackup/bin/admincmd/bpdbjobs -report
/usr/openv/netbackup/bin/admincmd/bperror -U –problems 报告24小时内的问题。
/usr/openv/netbackup/bin/admincmd/bpgetconfig | more 获得netbackup的配置信息。
/usr/openv/netbackup/bin/bpclntcmd -hn Client_A 测试到某client是否有问题。
磁带的池:
netbackup : 默认扫描到的磁带都放在此池;除clear带。
none: 默认放清洗带。
其他池可以手工建议:对一个策略建立一个池,从netbackup中找到数据带,分配到相应的策略池中。
并可以对分配完成的磁带进行label操作,可以检查磁带是否有问题。
6.管理维护:
bpadm 可以进行日常维护用,而不用jnbSA 的图形化界面。
#bpflist -d 2009-07-01 -e 2009-07-02 -policy dbbackup -client dcd-bjgglc-rac03-vip -U
这一句可能是最有用的。
#bpps -a
#bpdbjobs -report 执行结果的状态问题: 0 :成功; 96: 没有空闲磁带可用。其他:
bpimage --help
bpimage: unrecognized option --help
bpimage: -[de]compress [-allclients | -client ]
bpimage: [-M <master_server,...,master_server>]
bpimage: -npc -backupid <backup_id>[-client ]
bpimage: -newserver [-oldserver ] [-id ]
bpimage: -deletecopy <#> -backupid<backup_id>
bpimage: -testlock <#> -backupid<backup_id>
bpimage: -prunetir [-allclients | -client ] -cleanup
bpimage: -create_image_list -client
bpimage: -gendrreport -backupid
bpimage: -wff -backupid <backup_id>[-client ]
bpimage: -update [-secinfo <[0|1]> | -rfile <[0|1]> |
-filesysonly <[0|1]> |
-numfiles | -keyword "keyword phrase" | -objdesc ]
[-client -policy -t -d yyyy-mm-dd HH:MM:SS]
[-client -d yyyy-mm-dd HH:MM:SS]
[-id <backup_id>]
# bpflist --help
bpflist: unrecognized option --help
bpflist: [-l | -L | -U] [-v]
[-M master_server...]
[-d yyyy-mm-dd HH:MM:SS][-e yyyy-mm-dd HH:MM:SS]
[-ut ]
[-st sched_type]
[-policy policy_name][-client client_name]
[-keyword "keyword phrase"][-pattern fullpath]
[-pt policy_type]
[-user name][-group name][-raw mode]
[-backupid name][-force_print]
[-psep path_separator_character]
[-malgo match_algorithm (0 1 2 or 3)]
[-rl recursion_level (0..999)]
[-option NONE ONE_PASS NO_HSHAKE GET_ALL_FILES
INCLUDE_TIR ONLY_TIR ONLY_DIRS FILESYSTEM_ONLY
ONE_CONNECT INCLUDE_RAW_INCR INCLUDE_BITMAP INCLUDE_FSMAP
INCLUDE_EDI IGNORE_CASE INCLUDE_EFI>]
bpflist: -complete -policy policy_name [-client client_name][-st sched_type][-bt ]
Valid values for sched_type:
FULL, INCR, CINC, UBAK, UARC, ANY, SCHED, USER, NOT_ARCHIVE
Valid values for policy_type:
Standard, Oracle, Informix-On-BAR, Sybase,
NetWare, MS-Windows-NT, OS/2, DB2, AFS,
DataStore, Lotus-Notes, NBU-Catalog, Generic,
PureDisk-Export
---------------------------------------------------------------
命令行方式管理NETBACKUP
===========================================================
作者: yangtingkun(http://yangtingkun.itpub.net)
发表于: 2007.07.15 16:59
分类: 操作系统
出处: http://yangtingkun.itpub.net/post/468/307657
---------------------------------------------------------------
刚开始接触netbackup的时候,一直使用jnbSA图形界面管理、监控NETBACKUP。今天发现和jnbSA功能相近的命令行工具:bpadm。
有些时候由于网络条件限制,无法启动远端图形界面,这个时候命令行工具就显得尤为重要了。
简单看一下bpadm的功能:
# bpadm
NetBackup Server: backup
NetBackup Administration
------------------------
s) Storage Unit Management...
t) Storage Unit Group Management...
p) Policy Management...
g) Global Configuration...
r) Reports...
m) Manual Backups...
x) Special Actions...
u) User Backup/Restore...
e) Media Management...
h) Help
q) Quit
ENTER CHOICE:
从这里看的处理,基本上jnbSA的功能在bpadm中都包括了,命令行唯一比较差的是缺少实时监控的功能。
不过通过Reports命令也可以实现其中部分功能:
Server: ALL
Client: ALL
Start Date: 05/11/2007 23:29:11
End Date: 05/12/2007 23:59:59
Output Destination: SCREEN
Reports
-------
b) Backup Status
l) List Client Backups
p) Problems
a) All Log Entries
m) Media...
d) Change Dates
c) Change Client
s) Change Server
o) Output Destination (SCREEN or FILE)
h) Help
q) Quit Menu
ENTER CHOICE:
Backup Status包含了最近完成的备份情况,而List Client Backups包括的信息会更详细一些。不过这两个报告无法看到正确运行的情况。
通过All Log Entries可以看到详细的后台操作信息,比如netbackup的备份开始、结束等等。检查日志可以在某种程度上实现目标实时监控的功能。
下面是Backup Status、List Client Backups和All Log Entries的报告片断:
STATUS CLIENT POLICY SCHED SERVER TIME COMPLETED
0 backup testoracle Default-Ap backup 05/12/2007 00:40:27
0 backup testoracle Default-Ap backup 05/12/2007 00:41:54
0 backup testoracle Default-Ap backup 05/12/2007 00:45:56
0 backup testoracle Default-Ap backup 05/12/2007 00:47:20
0 racnode1 installagent Default-Ap backup 05/12/2007 00:56:10
0 racnode1 installagent Default-Ap backup 05/12/2007 00:57:34
(B)ack (F)orward (U)p (D)own (Q)uit
Client: backup
Backup ID: backup_1178901997
Policy: testoracle
Policy Type: Oracle
Sched Label: Default-Application-Backup
Schedule Type: User Backup (Backup Policy)
Retention Level: infinity (9)
Backup Time: 05/12/2007 00:46:37
Elapsed Time: 000:00:43
Expiration Time: INFINITY
Compressed: no
Encrypted: no
Kilobytes: 7200
Number of Files: 1
Primary Copy: 1
Image Type: 0 (Regular)
Keyword: test
Ext Security Info: no
File Restore Raw: no
Image Dump Level: 0
File System Only: no
Object Descriptor: (none specified)
Multiplexed: no
TIR Available: no
Backup Copy: Standard (0)
Client: backup
Backup ID: backup_1178901869
Policy: testoracle
Policy Type: Oracle
Sched Label: Default-Application-Backup
Schedule Type: User Backup (Backup Policy)
Retention Level: infinity (9)
Backup Time: 05/12/2007 00:44:29
Elapsed Time: 000:01:26
Expiration Time: INFINITY
Compressed: no
Encrypted: no
Kilobytes: 522272
Number of Files: 1
Primary Copy: 1
Image Type: 0 (Regular)
Keyword: test
Ext Security Info: no
File Restore Raw: no
Image Dump Level: 111
(B)ack (F)orward (U)p (D)own (Q)uit