大约有20%以上的NetBackup备份/恢复失败是由通讯故障引起的,而不是NetBackup自身的问题。而且在处理这些故障时,用户往往忽略通讯问题的可能。这是因为一般的应用系统在安装NetBackup之前已经有业务系统(如,Oracle)在正常运行;用户一般会进行简单的名字解析配置, 并使用ping 命令验证通过。但事实上,上述这些并不能完全保证NetBackup备份/恢复任务 正常运行,因为:

  · NetBackup进程流较一般应用程序更为复杂,要求精心规划和实施名字解析、端口使用及防火墙策略。

  · 备份应用会产生海量猝发网络流量,要求更为健壮的网络环境。

  症状常见的通讯问题可能表现为:

  · 同一个客户端,文件系统备份正常,数据库备份失败。

  · 新加的Media Server或Client,不能正常工作。

  · 备份任务挂起。 常见的通讯问题引起的NetBackup错误代码有:23、24、25、40、41、42等。

  要深入分析并解决备份和恢复中的通讯问题,必须深入了解NetBackup的进程流,但如果遵循一些简单有效的原则,就可以避免、解决大部分的通讯问题。

  正确设置NetBackup通讯相关项

  首先,要正确设置NetBackup通讯相关项,包括:

  1. 确认NetBackup主机名称。

  a. NetBackup主机名可以从hostname (短名)、FQDN (Fully Qualified Domain Name,正式域名、长名 )及 virtual name (集群网络资源名)中选择。

  b. 一旦确定,坚持统一在所有NetBackup场合(Policy, Server Lists)使用,并保持大小写一致。

  2. 确保每个需要服务器权限的NetBackup主机,出现在Server List中并且名称无误。

  a. 对于Unix/Linux主机,Server List在/usr/openv/netbackup/bp.conf 配置文件的最前端。

  b. 对于Windows主机,Server List在注册表项HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\Server中

  3. 确定NetBackup主机与其它主机通讯时所使用的端口范围(Port Range)。建议使用默认值:

  a. 侦听端口:13724,1556

  b. 向外通讯源端口范围:512-65535

  4. 指定NetBackup通讯用网络接口,即,Required Interface。当一台NetBackup主机有多个网络接口及IP地址时,推荐设置一个固定IP地址由于与其它主机通讯。

  a. 对于Unix/Linux主机,在bp.conf中加入一行:REQUIRED_INTERFACE = ip地址或网卡主机名 (所谓网卡主机名可以是现有hostname, FQDN, virtual name,也可以是一个任意名字,该名称要通过etc/hosts 或 DNS 解析为指定NetBackup通讯用IP地址)

  b. 对于Windows主机,可以在注册表中设置该项:HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config\ REQUIRED_INTERFACE

  5. 检查通讯超时设置:

  a. Client Read Timeout,这是一个客户端属性,缺省值为300秒,对于数据库备份建议则加到900以上。

  b. Client Connection Timeout,这是一个服务器属性,应当随着Client Read Timeout的增加而增加。

  检查操作系统及网络设备的通讯设置

  然后,检查操作系统及网络设备的通讯设置

  1. 确定IP地址 ,包括:

  a. 主机是否有多个网卡

  b. 主机是否有多个IP地址,和网卡如何对应,是否有浮动IP

  2. 检查名字解析 (etc/hosts, NIS, DNS)

  a. 推荐使用本地文件 etc/hosts 作为首选方法,把所有NetBackup主机包含在内,并保持在所有主机上解析一致

  b. 如果使用DNS/NIS/WINS ,可以将其作为第二解析方法,同时特别注意要正确设置反向解析。检查命令为:

  i. nslookup –qt=ptrip_address

  ii. hostip_address

  c. 如果存在名称和IP地址的多对多关系,建议添加一个NetBackup专用别名,并解析为NetBackup专用IP地址。例如,指明为ClientA, NetBackup专用IP地址为10.10.10.1,则可以可以:

  i. 在etc/hosts中加入“10.10.10.1 ClientA ClientA_NBU”

  ii. 在 bp.conf中设置“REQUIRED_INTERFACE = ClientA_NBU”

  d. 不能忽略回环地址解析,确保 etc/hosts 文件的第一行是“127.0.0.1 Localhost”。

  3. 确保网卡与其直接连接的交换机端口工作模式相同(全双工、半双工、自动协商),建议使用全双工。

  4. 检查防火墙设置 ,如果NetBackup使用缺省端口通讯,对于任意一个NetBackup主机,防火墙可以如下设置:

  a. 开放其它所有NetBackup主机的使用端口范围512-65535到 该主机的侦听端口的内向通讯(Inbound Calls)。

  i. NetBackup客户端的侦听端口是13724(Vnetd)

  ii. NetBackup服务器的侦听端口是13724和1556(PBX)

  b. 开放每一台NetBackup主机的使用端口范围512-65535到其它所有NetBackup主机的13724 /1556侦听端口的外向通讯(Outbound Calls)。 注意:防火墙有多种形式,除专用硬件防火墙外,还可以是策略设置复杂的第三层交换机/路由器或者运行在主机的软件防火墙。常用通讯检查工具/命令

  1. Ping,用来 检查IP层通讯

  2. telnethost_name port_name 检查TCP层通讯

  a. etc/hosts 定义hostname

  b. etc/services 定义port name

  3. bpclntcmd 检查NetBackup应用层通讯

  4. AppCritical 网络诊断工具SAS

  a. 下载地址http://www.apparentnetworks.com/sas/330/

  b. 运行后需要把生成的xml文件发送给Symantec,来生成测试报告。注意报告中的两个重要指标不能太高:

  i. 丢包率

  ii. 重发率

  常用通讯相关日志

  如果不能独立解决问题,可以收集如下日志信息,提供给Symantec 技术支持工程师分析:

  – bpcd (客户端NetBackup Communication Daemon)

  – bprd (Master server端NetBackup Request Manager)

  – OS system log(如Event log, Syslog, Messages)

  – Hardware logs (网络交换机或路由器日志 )