网络高可用性技术之三

原创

零落浮华 2013-05-18 14:31:51 博主文章分类：设备 ©著作权

文章标签 网络高可用性技术 文章分类 网络安全

©著作权归作者所有：来自51CTO博客作者零落浮华的原创作品，请联系作者获取转载授权，否则将追究法律责任

转载自：华为网络高可用性技术白皮书（二）

1.环网技术

环网技术通过把设备环形相连，在提供一定链路冗余的情况下避免了复杂的 Mesh 组网，环网有很强的单点故障自愈能力。环网技术分单环和双环两种结构。通信技术的发展过程中，出现了不少的环网技术，如 Token Ring、FDDI、SDH 等。

环网也因其固有拓扑而导致一些缺点，首先，对于多点故障难以提供故障保护，故障保护手段比较单一；其次，只要有一个区段出现带宽不足，需要环网的所有区段都扩容；另外，环网的每个节点只有两个纬度，资源利用效率相对较低。

这里简单介绍一下两种相对较新的环网技术：RPR（Resilent Packet Ring，弹性分组环）、

RRPP（Rapid Ring Protection Protocol ，快速环保护协议），其中 RPR 为双环、RRPP 为单环。

1.1 RPR

RPR（Resilient Packet Rings，弹性分组环）工作在 OSI 协议模型第二层的 MAC 层，和物理层无关，可运行于 Ethernet 、SONET/SDH 和 DWDM 之上。 RPR 技术吸收了以太网的经济性、灵活性和可扩展性以及SDH 对延时和抖动的严格保障、可靠的时钟和 50ms 环网保护特性，RPR 不仅支持 IP 业务，也能很好的支持传统的 TDM 业务。

RPR 组网沿袭了 SDH 的环型结构，是互逆双环结构，分别为 0 环和 1 环，0 环数据传送方向为顺时针，1 环为逆时针。RPR 继承了 SDH 的快速自愈能力，能实现 50ms 的故障切换。

RPR 有两种故障自愈方式：绕回（wrap）方式和抄近路（Steering）方式。绕回方式是数据

在故障链路两端节点的 0 环和 1 环环回，优点是收敛快，缺点是绕回路径长，占用带宽较多。抄近路方式是直接走另外一个环，抄近路方式因为走另外一个环需要重新收敛，因此收敛速度稍慢，不过路径短，占用带宽少。下图列出了在正常情况下报文的转发路径，以及出现故障后，Wrap方式和 Steering 方式时报文的转发路径。

图1 RPR的两种故障自愈方式

在两种故障自愈方式下，收敛时间都在 50ms 以内。

1.2 RRPP

为了缩短网络故障收敛时间，华为 3Com 推出了革新性的以太环网技术——RRPP（Rapid Ring Protection Protocol，快速环网保护协议）。RRPP 技术是一种专门应用于以太网环的链路层协

议，它在以太网环中能够防止数据环路引起的广播风暴，当以太网环上链路或设备故障时，能迅速切换到备份链路，保证业务快速恢复。与 STP 协议相比，RRPP 协议具有算法简单、拓扑收敛速度快和收敛时间与环网上节点数无关等显著优势。

1.RRPP基本概念

a)RRPP域（RRPP Domain）：

RRPP 域由整数表示的 ID 来标识，一组配置了相同的域 ID 和控制 VLAN，并且相互连通的交换机群体构成一个 RRPP 域。一个 RRPP 域具有如下的组成要素。

b)RRPP环：

一个 RRPP 环物理上对应一个环形连接的以太网拓扑，一个 RRPP 域由彼此相交的多个 RRPP环构成，其中有一个为主环，其他环为子环。相切环情况下可以都配置为一个主环；一个 RRPP域也可以只包含一个 RRPP 环。RRPP环的角色由用户通过配置决定。

c)RRPP控制VLAN：

每个 RRPP 域可以具有两个控制 VLAN，分别叫做主控制 VLAN 和子控制 VLAN。主环的协议报文在主控制 VLAN 中传播，子环的协议报文在子控制 VLAN 中传播。

d)主节点：

主节点是 RRPP 环上的主要决策和控制节点。每个 RRPP 环上必须有一个主节点，而且只能有一个。主节点的环上端口分为主端口和从端口，环完整的情况下，通常阻断从端口。

e)传输节点：

环上除主节点之外的其它节点都可以称为传输节点（边缘节点和辅助边缘节点实际上是特殊

的传输节点）。一个 RRPP 环上可以有多个传输节点。

图2 RRPP环网示意图

f)主端口和从端口：

主节点和传输节点接入以太网环的两个端口中，一个为主端口，另一个为从端口，端口的角

色由用户的配置决定。主节点的主端口和从端口在功能上是有区别的。主节点从其主端口发送环路状态探测报文即 Hello 报文，如果能够从从端口收到该报文，说明本节点所在 RRPP 环网完整，因此需要阻塞从端口以防止数据环路；相反如果在规定时间内收不到探测报文，说明环网故障，此时需要放开从端口以保证环上所有节点的正常通信。传输节点的主端口和从端口在功能上没有区别。端口的角色同样由用户的配置决定。

2.RRPP基本原理

a)RRPP协议基础

每个域上所有节点配置相同的RRPP域ID和控制VLAN

协议报文在控制VLAN中传播

b)正常工作原理

RRPP 环主要由一个主节点、多个传输节点和控制 VLAN 构成，主节点配置主端口和从端口，

正常工作时主节点周期性地从主端口发送 Hello 报文，从端口一旦接收到自己发送 Hello 报文，立刻阻塞从端口。控制 VLAN 主要传输RRPP 的控制报文，有效保护控制报文。

图3 RRPP正常工作示意图

c)Polling机制

Polling 机制是 RRPP 环的主节点主动检测环网健康状态的机制，主节点周期性地从其主端

口发送 Hello 报文，依次经过各传输节点在环上传播。如果主节点的从端口能收到自己发送的Hello 报文，说明环网链路完整；否则如果在规定时间内收不到 Hello 报文，就认为环网发生链路故障。

处于故障状态的主节点从端口收到自己发送的 Hello 报文，立即迁移到环恢复状态，阻塞从端口并刷新转发表，而且主端口发送刷新转发表的报文通知所有传输节点放开临时阻塞端口和刷新转发表。

d)链路状态变化通知机制

链路状态变化通知机制是一种比 Polling 机制更快处理环网拓扑改变的机制，这一机制的发

起者是传输节点。传输节点总是在监测自己的端口链路状态，一旦状态发生改变，它就会通过发送通知报文把这种变化通知主节点，然后由主节点来决定如何处理。如果检测到端口 Down，将会发送故障通知报文。主节点接收到该报文会立刻放开从端口，刷新本地转发表的同时发送报文通知其他节点刷新转发表。

图4 RRPP故障处理过程示意图

e)故障恢复机制

环故障状态的主节点通常从端口接收不到自己发送的 Hello 报文；故障节点的链路恢复也会进入临时阻塞状态，但环的 Hello 报文可以通过该阻塞端口，这样主节点会接收到自己发送的Hello 报文，主节点认为环已经恢复正常，立刻阻塞从端口且刷新转发表，并同时从主端口发送报文通知所有传输节点放开临时阻塞端口和刷新转发表，传输节点接收到该报文后会立刻放开临时阻赛端口且刷新转发表。

2.STP 和 Smart Link

STP 和 Smart Link 技术都可以解决由于链路冗余而产生的二层环路问题，其中 STP 可以应

用于各种拓扑，Smart Link 则可以认为是对特定组网情况下对 STP 的替代技术。

解决二层环路技术而提出的技术很多，前面的 RRPP 也可以认为是这种技术。另外一种值得一提的技术是分布式链路聚合技术，通过跨设备的链路聚合，可以避免环路，不用使用 STP，并做到链路负载分担。有些分布式链路聚合技术只能在同一个堆叠组的设备间跨设备聚合，另一些分布式链路聚合技术则可以跨任意设备聚合。

这里只介绍 STP 和 Smart Link。

2.1 STP/RSTP/MSTP

STP（Spanning Tree Protocol，生成树协议）是IEEE 为了避免二层链路环路而提出来的技

术，在解决二层环路的同时能提供链路冗余，STP 适用于任何拓扑，环形拓扑和 Mesh 拓扑都能胜任。不过，STP 的收敛时间较慢，通常是 30 秒，特殊情况下要到 50 秒，难以适应当前数据网络中业务的需要。

为了提高 STP 的收敛速度，IEEE 提出了 RSTP 标准，即快速 STP。RSTP 相对于 STP 的改进有：

1．RSTP把端口角色和端口状态进行了分离，并简化了端口状态： RSTP中只有

discarding、learning和forwarding三个状态。相对来说，STP有五个状态disable、

blocking、listening、learning和forwarding。

2．RSTP更精细的划分了端口角色：root端口、designed端口的定义和STP一样；但对

于处于discarding状态的端口，细分为alternate端口和backup端口，分别是对根端口和指定端口的备份；另外，引入了一类特殊的Designed端口——edge端口，即和主机或其他终端设备相连的端口。

3．基于对端口角色的精确划分，RSTP引入了各种端口的快速迁移机制：

1)designed端口的快速迁移机制，在P2P链路上，如果designed端口处于discarding状态，立即启动proposal和同步过程，快速收敛网络。

2)edge端口可以立即forwarding。这在CISCO中称为portfast。

3)失去root端口后，立即启用最优的alternate端口。CISCO中称为uplinkfast。

4．网桥不再简单中继根桥发送的BPDU，而是每hello timer从指定端口独立发送BPDU。如果一个端口三次没有收到该网段指定桥从指定端口发送的BPDU，就认为指定桥故障，这可以加快BPDU的老化，快速发现网络故障。比如，这避免了STP中非直连链路失效时20秒的报文老化时间。

5．次优BPDU（Inferior BPDU）处理的优化，在STP中，只有Designed端口收到了次优的BPDU，才回应一个BPDU报文。在RSTP中，如果非Designed端口收到了原指定桥的次优BPDU，也立即回应一个BPDU，这避免了一个网段的原指定桥在失去root端口后，需要等待对端20秒时间老化报文后才能收敛。在CISCO中，这个优化称为backbone fast。

6．只有在非edge端口变为forwarding时才发拓扑改变报文，而且一旦设备感知了拓扑改变，拓扑改变信息在所有的root端口和非边缘的designed端口扩散，这保证了拓扑改变的信息的快速传播和网络的快速收敛。在STP中，端口变为fowarding或变为blocking都会导致发送拓扑改变报文，而且拓扑改变由感知拓扑改变的桥设备先知会根桥后，再由根桥发送拓扑改变报文，这大大延迟了网络收敛。

RSTP 相对于 STP，大大加快了收敛时间，链路 up/down 的情况下可以达到几百毫秒的收敛速度。下面对 RSTP 和 RRPP 作一个比较：

1．适用的拓扑：RSTP可以适用于任何拓扑，RRPP只能适用于环形拓扑。

2．收敛时间，假设都是环形组网，并且是P2P链路相连。虽然链路up/down或节点的故障检测时间，RRPP和RSTP差不多，但整网收敛时间RRPP相比RSTP收敛时间要快，主要的原因是，RRPP报文的转发在传输节点上是硬件转发并拷贝上CPU，而RSTP报文需要逐跳由CPU处理后再转发，这导致拓扑变化在RSTP下传播比RRPP慢，整网收敛也就慢。

3．节点个数限制问题：RRPP报文的轮询报文绕环一周，轮询报文的延迟随着环上节点个数的增多而增大，但只是亚毫秒级的影响，对RRPP的收敛性能影响有限，因此和RSTP相比，可以认为RRPP环上的节点的规模没有限制。RSTP因为报文的Max age，环上节点个数也受影响，虽然可调整Max age的大小作出应对，但因为RSTP报文是逐跳送CPU处理的，报文延迟较大，节点个数太多对收敛性能影响较大。

4．安全性问题，RRPP使用独立的VLAN传播信令，可以认为安全性较RSTP为高。

总体来说，RRPP 因为是针对环网开发的，在环网拓扑情况下，相对 RSTP 这种为适应任意拓扑开发的协议有一定的性能优势。

RSTP 相对于 STP，解决了收敛速度较慢的问题。但是没有解决冗余链路利用率低的问题，在STP/RSTP 中如果一个端口被阻断，那么该端口的链路事实上是被闲置了。

MSTP，即多实例 STP 的出现解决冗余链路利用率低的问题。MSTP 中，一组 VLAN 使用一个 STP实例，每个 STP 实例使用和 RSTP 相同的处理规则。在 MSTP 中，端口的阻塞是逻辑上的，只对某些 STP 实例进行阻塞，一个端口可能对一个 STP 实例阻塞，但对另一个 STP 实例是可以转发的。合理的使用 MSTP，可以做到链路的负载分担。而且，因为映射到一个 MSTP 实例的 VLAN 可以灵活控制，并且引入了域的概念，使得 MSTP在部署时有很好的扩展性。

2.2 Smart Link

在实际组网中经常用到的组网模式是二层双上行链路，其中一条链路作为另一条链路的备

份。通常的解决方案是使用 STP。但是 STP 是作为解决二层环路，提供二层冗余链路的通用技术，在这种特定的组网中，体现不出其优势。

H3C 和 CISCO 针对这种常用组网，分别提出了 Smart Link 和 Flex Link 技术，作为 STP 的

替代。这里只简单介绍 Smart Link 的实现机制。

如图示 Smart Link 组网图所示，设备 30 上端口 31 上的链路是主用链路，端口 32 上的链路是备用链路，正常情况端口 31 处于转发状态，端口 32 处于阻塞状态。当端口 31 的链路出现故障时，端口 31 将切换到阻塞状态，端口 32 将切换到转发状态，切换时间小于 200 毫秒。这里的链路故障包括端口 UP/DOWN，光纤的错纤故障，单纤故障等，此类故障需要响应 DLDP 的事件。主备链路可以是聚合链路，只有聚合组内所有链路都出现故障时才认为该聚合链路故障。目前只支持手工和静态聚合，不支持动态聚合。

图5 Smart Link组网图

说到了 Smart Link 技术，这里也要提一下 Monitor Link。如上边组网图，设备 20 与设备40 汇聚到设备 10，当汇聚上行端口，如端口 21，出现故障时，由于 Smart Link 组的主链路仍然都处于正常状态，设备 30 不会主动将业务切换到备用链路上去，但事实上设备 30 上的流量已经无法通过端口 31 的链路上行到设备 10。此时应该阻塞端口 31，使端口 32 进入转发，将流量切换到备用链路上。为了使设备 30 感知到汇聚上行链路的故障，需要对设备 30 进行上行端口监控，当设备 30 的上行端口出现链路故障时，将所有 Monitor Link 组里的下行端口一起 SHUTDOWN，从而使 Smart Link 将流量切换到备用链路上。

当Smart Link发生链路切换时，网络中各设备上的MAC表项可能已经错误，需要提供一种MAC更新的机制。目前刷新机制有两种，一种方式是自动通过流量刷新MAC；另一种方式是由Smart Link设备从新的链路上发送Flush报文。第一种方式需要有双向流量触发，第二种方式需要上行的设备都能够识别Smart Link的Flush报文并进行删除MAC表项的处理，Flush报文还需要继续向上转发。

当原主用链路故障恢复时，将维持在阻塞状态，不进行抢占，从而保持流量稳定。

3.网关冗余技术

网关冗余技术是为了解决局域网内主机静态配置缺省网关时，存在单点故障问题而提出的技

术。基本的设想是，让多个物理网关虚拟出一个或多个虚拟网关，局域网内主机的缺省网关静态配置成这些虚拟网关，虚拟网关的转发任务由选举出来的某个物理网关承担，只要不是所有物理网关同时故障，总能选举出一个物理网关承担虚拟网关的转发任务。通过把局域网内主机的缺省网关配置成不同的虚拟网关，网关冗余技术还可实现流量的负载分担。

目前的虚拟网关技术有 VRRP、HSRP 和 GLBP，其中 HSRP 和 GLBP 是 CISCO 的私有技术。HSRP（Hot Standby Router Protocol）完成和 VRRP 类似的功能，这里不作介绍，GLBP 相对于 VRRP做了优化，所有主机配置同一个网关地址就可实现负载分担，简化了管理。

3.1 VRRP

VRRP，即 VirtualRouter Redundancy Protocol。VRRP 协议把局域网内的多个物理网关组织成一个或多个虚拟网关，局域网内的主机把缺省网关静态配置为这些虚拟网关的 IP，主机和外部网络之间的通信流量由虚拟网关进行转发。参与构建一个虚拟网关的多个物理网关称为一个VRRP 虚拟组。

虚拟网关的报文转发功能由虚拟组中某个物理网关实际承担，这个网关被称为 Master，Master 由 VRRP 虚拟组中的成员根据 VRRP 协议规则选举产生，竞争 Mater 失败的其他成员称为Backup。一旦选定的 Master因为故障不能承担虚拟网关任务，VRRP协议会快速从其他 Backup设备中选择出一个 Master 继续承担局域网和外部通信的任务，保证局域网和外部网络之间的通信快速恢复。

Master 的选举通过比较每个网关在该 VRRP 虚拟组中的优先级（priority）来实现，优先级高的优先成为 Master，如果优先级相同，IP 地址大的获胜。判断自己为 Master 的设备发送 VRRP通告报文，其中携带自己的优先级和 IP 地址信息，收到通告报文的设备进行比较：如果自己优先级更高，那么判断自己为 Master，发送 VRRP 通告，原 Master 收到这个通告后将判断自己为Backup，不再发送通告；如果自己优先级持平或更低，判断自己为 Backup，保持静默。优先级的范围为 0－255，通过配置优先级，管理员可以控制 Master 的选举，可配置的优先级范围为 1－254，缺省优先级为 100。其中 0 和 255 有特殊用处：实际 IP 地址和虚拟网关 IP 地址相同的网关，其优先级为255，而且总是成为Master；如果当前Master不再参与VRRP组（比如shutdown），那么发送优先级置为 0 的 VRRP 通告，触发 Backup 立即转为 Master，不必等待当前 Master 超时。

不过，有时优先级高的获胜成为 Master 会带来问题，比如，在一个 VRRP 虚拟组中，如果一个优先级高的路由器 RA 故障，于是 RB 接替其成为 Master。一段时间后 RA 恢复，如果这时让 RA成为 Master，VRRP 重新收敛，会导致网络产生不必要的中断。针对这种情况，VRRP 提出了抢占模式和非抢占模式的概念。在非抢占模式下，如果已经有 Master，那么即使其他设备有更高的优先级，也只有原 Master 故障情况下，其他设备才可能被选举为 Master。另外，为了更进一步提高网络可用性，即使在抢占模式下，也建议设置一个延时时间，即选举为 Master 的设备延迟一段时间才通告自己为 Master，因为如果 VRRP 配置了对上行链路的监控，在网络链路不稳定时，会导致优先级的增减，这时，如果不设置延时时间，会导致 VRRP 的 Master 频繁变化，严重影响业务。对链路的监控功能后面会讲到。

如果要实现负载分担，可以构造多个 VRRP 虚拟组组，每个虚拟组构建一个虚拟网关，局域网内的主机通过配置自己的缺省网关为不同的虚拟网关，可以实现负载分担。不过，VRRP 实现负载分担的这种方式不利于根据实际情况动态进行负载分担调整，特别是当某个物理网关发生故障时，最初的分担策略一定程度上失去意义，重新调整用户主机配置又会带来管理上的不便。

下面通过图示，简单说明 VRRP 的工作原理。

图6 VRRP原理图

上图中，RA 和 RB 是一个局域网上的两个物理网关，配置了两个 VRRP 虚拟组，VRID1 和 VRID2。RA 为 VRID1 的 Master，VRID2的 Backup；RB 为 VRID1 的 Backup，VRID2 的 Master。局域网内的主机部分配置网关为 VRID1 的地址，部分网关为 VRID2 的地址，分别由作为虚拟组 Master 的 RA和 RB 来承担转发任务，实现负载分担。

VRRP 还提供了对上行口监控的功能，上图中，在 RA 上可配置在虚拟组 VRID1 中对上行接口进行监控，如果上行接口 down，那么 RA 在 VRID1 中的优先级会降低，在抢占模式下，RB 被选举为 VRID1 的 Master，流量从 RB 转发，网络不会中断。CISCO 在 HSRP（IOS12.3）中对这个特性作了经一步扩展，可以监控路由是否可达，更好的确保通过 Master 可以和外面的网络连通。

最后分析一下 VRRP 协议的收敛性能。VRRP 协议规定，如果 3 个 Adver_interval 时间内没有收到 Master 发送的 VRRP 报文，就会发生状态切换，所以 VRRP 的收敛时间理论上可以认为是3×Adver_interval。目前 CISCO 的 Adver_Interval 以毫秒为单位，理论上可以作到亚秒级收敛。

不过，Adver_Interval 设得过小会极大加重设备 CPU 负担，特别在存在较多 VRRP 组的情况下更是如此。当然，不排除随着硬件技术的进步和软件的优化，特别在高端设备上，设备处理VRRP 报文的能力得到大幅提升，配置 Adver_Interval 以毫秒为单位可以成为现实。

3.2 GLBP

GLBP，即 Gateway Load Balancing Protocol，是 CISCO 的私有协议。在 VRRP/HSRP 中，如果要实现网关的负载均衡，需要配置多个虚拟路由组，相应的，主机需要配置不同的默认网关，这带来了额外的管理开销。GLBP 在不用配置多个虚拟组的情况下可以实现负载分担，也即所有主机配置相同网关地址就可以实现负载分担。

一个 GLBP 虚拟组只提供一个虚拟 IP，但为这个虚拟 IP 分配多个虚拟 MAC。和 VRRP 一样，GLBP 为每个 GLBP 组选举一个 AVG（Active Virtual Gateway），GLBP 组的其他成员作为 AVG 的备份。虚拟组中的成员通过 GLBP Hello 报文（UDP封装，目的 IP 为组播地址 224.0.0.102，源和目的端口均为 3222）相互通信，通告相关信息。

虚拟组的成员通过 Hello 报文知道了谁为 AVG 后，向 AVG 发送 GLBP Request 报文，请求为自己分配虚拟 MAC，AVG 以 GLBP Reply 报文回应给请求者分配的虚拟 MAC 地址，CISCO 支持一个组最多四个虚拟 MAC。如果一个虚拟组成员分配到了一个虚拟 MAC，那么它负责转发目的 MAC 为这个虚拟 MAC 的报文，称为这个虚拟 MAC 的 AVF（Active Virtual Forwarder），虚拟组的其他成员作为这个虚拟 MAC 的备份转发者，在 AVF 失效时会被选择承担转发任务。AVG 还负责回应主机的 ARP 请求，通过对不同的主机 ARP 请求回应不同的网关虚拟 MAC，可以灵活控制各个 GLBP虚拟组成员的负载。

下图是 GLBP 的原理图，其中主机配置相同的网关 IP 10.21.8.10，但他们获取的网关 MAC

不一样，两个网关 Router A 和 RouterB 分别为这两个 MAC 的 AVF。其中 RouterA 被选举为这个GLBP 组的 AVG。

图7 GLBP原理图

和 VRRP 中的 Master 选举类似，AVG 的选举也是根据网关的 priority 来选举的，优先级高的获胜。如果优先级相同，IP 地址大的获胜。和 VRRP 一样，GLBP 也支持 AVG 选举的抢占模式和非抢占模式，工作方式也类似，这里不再赘述。

当某个虚拟 MAC 的AVF 失效时，需要从备份组的其他成员中选择一个 Forwarder 承担转发任务，这个过程也是通过优先级来选举的，但目前 CISCO 公开发表的文档中没有对如何确定 AVF的优先级给出详细说明。

不过 AVF 的选举相对于 AVG 有一点不同，如果某个虚拟 MAC 的 AVF 因故障失效，重新选举出一个 AVF 承担这个虚拟 MAC 的转发任务的话，那么这个新 AVF 就承担了两个虚拟 MAC 的转发，负载过重，GLBP 有必要针对目前转发报文的网关少了一个的情况重新实施负载分担的策略。

GLBP 的做法是，先假定这个故障的 AVF 还会恢复，所以在一段时间（Redirect timer）内，AVG会继续给主机回应这个虚拟MAC，新选举出的AVF承担这个虚拟MAC的转发。“Redirect timer”超时后 AVG 不再回应这个虚拟 MAC，但新的 AVF 仍然继续转发目的地址为这个虚拟 MAC 的报文，这是为了防止某些主机的 ARP 超时时间较长。不过，当另一个定时器“timeout timer”超时后，这个虚拟 MAC 失效，AVF 不再转发目的地址为这个虚拟 MAC 的报文，这个虚拟 MAC 被 AVG 回收，可以重新分配。“timeout timer”应该设置为比所有主机的 ARP 超时时间都长。

图8 GLBP AVF相关定时器

GLBP 使用一种成为 weight 的属性来衡量网关的转发能力，GLBP 可以配置对接口的 up/down状态进行监控来动态改变网关的 weight 值，如果被监控的接口 down 掉，weight 就减少特定值，表明网关的转发能力遭到了削弱，up 就恢复特定值，表明转发能力得到恢复。另外一种更强的监控方式是在监控该接口的 up/down 的同时，还监控该接口是否启动路由、是否配置了 IP 地址。

GLBP 可以指定如果 Weight 到达某个 lower 阈值（认为上行转发能力丧失）就不再承担 AVF角色。如果 Weight 达到某个 upper 阈值（有一定上行转发能力），就可以承担 AVF 角色。这也是前面猜测 AVF 的优先级和 weight 值相关的原因。

GLBP 和收敛相关的有两个定时器，Hellotimer 和 Holdtimer。Hellotimer 为虚拟组成员发送 Hello 报文的时间间隔。Holdtimer 是 GLBP 组成员认为 AVG 和 AVF 有效的时间间隔，超过这个时间没有收到 Hello 报文，就会重新选举 AVG 和 AVF。