1、设备级可靠性
设备级的高可靠性设计是网络核心设备选型时最关键因素。此时我们往往只考虑设备硬件的冗余,忽略了运行和存储于硬件上的软件、网络信息和管理信息。
一般情况下,设备级的可靠性主要包括:
● 物理冗余:提供双电源、双引擎、双交换矩阵和双时钟,甚至双核心设备。
● 逻辑冗余:利用Ethernet Channel、FastEthernet Channel 和Gigabit Ethernet Channel 技术为设备间链路提供负载的分担和链路的冗余;利用VRRP/HSRP 技术为第三层路由提供冗余,并利用所形成的虚拟路由器实现路由器之间的负载分担和冗余操作。
● 独立的可重置模块:模块的重置只局限于模块自身,并不会导致其它模块或整机的重置。
● 路由处理器冗余(RPR+):路由处理器冗余+,RPR+ 特性是RPR 特性的增强。当主处理引擎与备用处理引擎发生切换时,它可以避免板卡的复位和重加载。与RPR相比,RPR+ 准许切换时不对接口卡进行重置,进一步加快了RSP 切换的速度。RPR+保持第2 块引擎处于“暖启动”状态,保持路由、QoS、ACL信息同步更新,从而实现主备引擎之间0.06~3 秒的快速切换,灾备时间减少50%。
● 无停顿转发(Nonstop Forwarding,NSF)和状态切换(Stateful Switchover,SSO)功能:用于维护路由器中两个交换引擎之间路由状态信息,使主备引擎可以在不中断网络运行或丢弃包的情况下进行切换;在切换期间, Cisco SSO 提供零中断第 2 层连接,而 Cisco NSF 转发第 3 层数据包时保证不丢失分组,或丢失量最小。分组连续转发可以重新建立对等关系,而无需在整个网络中再次收敛路由协议。
● 不间断系统运行的软件升级(ISSU):升级系统的软件或软件模块不会中断或影响系统的操作。
2、链路级可靠性
网络链路级可靠性可以分为2 层路由链路和3 层路由链路两个方面:
● 更快的链路灾备
-快速生成树:为了解决了物理线路中断所造成的网络终端,我们往往会设置备份的物理线路,但是它们往往会形成环路,回路会产生无休止的数据路径,导致网络服务的中断以及额外的系统管理费用。IEEE802.1D生成树协议通过从网格化物理拓扑结构而构建一个无环路逻辑转
发拓扑结构,提供了冗余连接,消除了数据流量环路的威胁。原始生成树协议IEEE 802.1D通常在50秒内就可以恢复一个链接故障[融合时间=(2xForward_Delay)+Max_Age]。当设计此协议时,这种停机还是可接受的,但是当前的关键任务应用(如语音和视频)却要求更快
速的网络融合。为加速网络融合并解决与生成树和虚拟LAN(VLAN)交互相关的地址可扩展性限制的问题,IEEE 委员会开发了两种新标准:在IEEE 802.1w 中定义的快速生成树协议(RSTP)和在IEEE 802.1s 中定义的多生成树协议(MST)。如果使用适当的话,RSTP能将在连接故障和恢复时所需的重新配置和恢复服务时间,减少到低于秒的量级,并保持同基于STP 设备的兼容性。RSTP 可以保证在一个桥接/ 交换、桥接端口或LAN 发生故障之后,其连接性的快速恢复。一个新的根端口可以快速转换至传送端口状态。在LAN中桥接与转换之间明确的应答,允许指定端口快速转换至传送端口状态,此时,桥接端口可被配置在桥接/ 交换重新初始化时直接转换为传送端口状态。当特定的桥接端口连接于LAN 边缘的一个LAN 段时,这一点将十分有用,例如在该LAN 段没有其它的桥接或交换可用的情况时。
- PortFast:生成树协议会运行在交换机的所有端口上,但接入层交换机的许多端口连接着工作站或服务器,这些点到点连接是不会出现环路的。PortFast 技术将这类端口从STP 的计算中排除出去。当主机连接到交换机时,启动PortFast 的端口将直接成为转发状态,避免了
STP计算造成用户在最初一段时间不能使用网络的情况,将工作站或服务器连接上网的时间减至最短。针对Access 端口跳过listening-learning 阶段。
- UplinkFast:当接入层交换机有两条链路连接汇聚层设备时,如果出现环路肯定会有一条链路在STP 计算时被阻断掉。在主链路断掉时,被生成树阻断的端口需要重新进行计算,在经过50秒后被打开参与用户数据的转发。在访问层交换机上启动UplinkFast功能后,如果交换机在直连的主链路上检测到失效,那么交换机会立即将被阻断的备份端口打开转发数据,通常情况下只需要2 到4 秒钟的时间。这样就可以通过UplinkFast 提高交换网络的收敛速度。
-BackboneFast:汇聚层交换机与主干交换机之间为保证链路的可靠性,往往会形成环形链路,环形链路上某个链路或接口的故障会引起生成树的重新计算。在主链路断掉时,被生成树阻断的端口需要重新进行计算,在经过20秒的最大等待时间(Max_Age)后进入侦听(listening)
状态,在经过30 秒后被打开参与用户数据的转发。在汇聚层交换机上启动BackboneFast 功能后,如果交换机在非直连的主链路上,即迂回链路上检测到失效,交换机快速收敛去掉最大等待时间(Max_Age)20 秒,因此可以节省生成树的计算时间至8~30 秒。
-增强功能: UDLD(线路单通问题自动诊断功能),用于检测光纤或铜缆以太网链路上的故障。由于生成树具有单向的BPDU 流,对这种故障相当敏感。在一个端口突然不能发送BPDUs的时候,引起邻居的STP状态改变,导致邻居的“blocking”端口切换到“forwarding”状态。由于原forwarding 端口仍然可以接收包,从而引起环路。因此,UDLD可以监视物理电缆的配置,并将通过“ErrDisabled”状态将配置不正确的端口给down 掉。避免出现单向连接,当检测到一个因为介质或端口故障导致的单向连接时,将端口shutdown 并标识为
“ErrDisabled”状态,同时产生一个syslog 信息。
● 更全的链路捆绑
-Cisco PAgP 和 IEEE 802.3ad:
> PAgP是一个用于在检查Channel两端的参数的一致性以及在出现增加链路或链路失效时的重新适配的一个管理协议,PAgP 协议控制每个独立的物理或逻辑端口打成Channel 的行为,如果一个Channel 中的某个链路失效(拨掉光纤或光纤断了)了,agport 会进行更新,流量会在现有的端口上重新进行hash 计算,不会有包丢失。
> 源自思科ISL 的802.3ad 把两个或多个 Link 捆绑成逻辑的虚拟的单一通道,子 Link 之间提供自动流量负载平衡和冗余,很大程度上会简化系统集成,减少升级骨干网络的投资。
-点到点的冗余连接
-在重新建立的链路仍可进行负载均衡,链路恢复时间小于1 秒
● 更强大的路由灾备
-VRRP/HSRP:虚拟路由器冗余协议/ 热备份路由器协议,实现VRRP/HSRP的条件是系统中有多台路由器,它们组成一个“热备份组”,这个组形成一个虚拟路由器。在任一时刻,一个组内只有一个路由器是活动的,并由它来转发数据包,如果活动路由器发生了故障,将选择
一个备份路由器来替代活动路由器,但是在本网络内的主机看来,虚拟路由器没有改变。所以主机仍然保持连接,没有受到故障的影响,这样就较好地解决了路由器切换的问题。
-GLBP:网关负载平衡协议,相对于HSRP与VRRP,GLBP 具有很多的优点,在保护第一个跳动路由器的同时能在所有可用路径上分配分组负载,使得网络带宽的利用率更高。以前,如果主路由器或路径中出现错误,则第一个跳动冗余功能只能在备份WAN 路径上转发分组。GLBP 可使组中的任一路由器担当备份作用,并能简化配置。最大的区别是在HSRP 和VRRP 中同一个GROUP中只有一个路由器在转发流量,其余路由器只是起备份作用,而在GLBP 中,同一个GROUP 的所有路由器(最多4 个)可以同时转发流量。这样就起到了负载均衡的作用。
3、软件级或系统级可靠性
系统级可靠性是指软件重新加载或升级时,系统重新启动对网络运行所造成的影响。系统级可靠性在建网过程中往往容易忽略,但是对于主干网络设备来说,连接中断所造成的影响会很快波及整个网络。因此,尽可能大的缩短系统软件的加载时间才可以有效提供系统级可靠性。在有
“Cisco IOS 暖升级”的情况下路由器丢失分组转发低于30 秒钟。