边界网关协议BGP

原创

stardsd 2021-07-19 09:38:27 ©著作权

©著作权归作者所有：来自51CTO博客作者stardsd的原创作品，请联系作者获取转载授权，否则将追究法律责任

Border Gateway Protocol (BGP) is a standardized exterior gateway protocol designed to exchange routing and reachability information among autonomous systems (AS) on the Internet.[1] The protocol is often classified as a path vector protocol but is sometimes also classed as a distance-vector routing protocol. The Border Gateway Protocol makes routing decisions based on paths, network policies, or rule-sets configured by a network administrator and is involved in making core routing decisions.

BGP may be used for routing within an autonomous system. In this application it is referred to as Interior Border Gateway Protocol, Internal BGP, or iBGP. In contrast, the Internet application of the protocol may be referred to as Exterior Border Gateway Protocol, External BGP, or EBGP.

边界网关协议（英文：Border Gateway Protocol, BGP）是互联网上一个核心的去中心化自治路由协议。它通过维护IP路由表或‘前缀’表来实现自治系统（AS）之间的可达性，属于矢量路由协议。BGP不使用传统的内部网关协议（IGP）的指标，而使用基于路径、网络策略或规则集来决定路由。因此，它更适合被称为矢量性协议，而不是路由协议。

BGP是为了替换外部网关协议（EGP）协议而创建的，允许运行一个完全分散的路由系统，从ARPANET模型的核心路由系统过渡到包括NSFNET骨干网及其相关区域网络的分散系统。这使得互联网成为一个真正的分权制度。自1994年以来，第四版本的BGP在互联网上使用，所有以前的版本现在已经过时不可用。在第4版主要的增强功能是通过支持无类别域间路由和路由聚合来减少路由表的大小。第4版是在早期的 RFC 1771 第4版的基础上编纂，通过20多个草案修改，最终在2006年1月通过形成 RFC 4271 。RFC 4271版本纠正了一些错误，澄清模糊之处，带来了更接近工业级应用标准的RFC行业惯例。

大多数互联网服务提供商（ISP）必须使用BGP来与其他ISP创建路由连接（尤其是当它们采取多宿主连接时）。因此，即使大多数互联网用户不直接使用它，但是与7号信令系统（SS7）相比，即通过PSTN的跨供应商核心响应设置协议，BGP仍然是互联网最重要的协议之一。特大型的私有IP网络也可以使用BGP。例如当需要将若干个大型的开放最短路径优先（OSPF）网络进行合并，而开放最短路径优先协议本身又无法提供这种可扩展性时。使用BGP的另一个原因是其能为多宿主的单个ISP（RFC 1998）或多个ISP网络提供更好的冗余网络。

_______________________________________________________________________________

简介

BGP是自治系统间的路由协议。BGP交换的网络可达性信息提供了足够的信息来检测路由回路并根据性能优先和策略约束对路由进行决策。

1、介绍

BGP是自治系统间的路由协议。BGP交换的网络可达性信息提供了足够的信息来检测路由回路并根据性能优先和策略约束对路由进行决策（要点见RFC 1104[2]）。特别地，BGP交换包含全部AS path的网络可达性信息，按照配置信息执行路由策略。

随着近年来互联网的进步和增长，它也不得不面对一些严重的规模问题，包括：

－B类网络地址空间的耗尽。该问题的主要原因之一，是缺少适于中型组织的中等大小的网络；C类网络，最多拥有254个主机地址，实在太少，而B类网络允许最多65534个地址，却又太大无法充分使用。
－互联网路由器中路由表的增长使目前的软件（和人们）无法有效管理。
－32位IP地址空间的耗竭。
很明显，前两个问题和最后一个问题可能分别在今后一两年内和三年内变得急迫。无类别域间路由（CIDR）试图解决这些问题，设计相应机制来降低路由表和对新 IP网络分配需求的增长速度。它并没有解决更具长期性的第三个问题，而是努力让近期问题推迟使得互联网仍能有效运作，同时着手远期的解决方案。
BGP-4对BGP-3做了扩展，支持路由信息的聚合及基于无类别域间路由体系（CIDR）[3]的路由减少。本备忘录论述了BGP-4在互联网中的应用。
本文档的所有讨论基于如下假设：互联网是一些随意连接的自治系统的集合。也就是说，互联网可以建模成一张一般的网络图，图上节点是AS，边是每对AS间的连接。

自治系统的经典定义是，一组路由器在统一管理之下，在AS内使用内部网关协议和统一度量来路由数据包，而通过外部网关协议将数据包路由到其他AS。该经典定义尚在发展，一些AS在其内部使用多种内部网关协议和度量。在此，强调一下自治系统在本文档中的含义，即使它采用多种IGP和度量，它的管理区别于其他 AS，其内部路由是一致的，当路由穿越它时，它在图上视作一个节点。每个AS由一个管理机构管理，至少在外部看来它代表着该系统的路由信息。
2. BGP拓扑模型
当我们说一个在两个AS之间的连接时，意味着两件事：

物理连接：两个AS之间存在一条共享的数据链路子网，并且在该子网上，每个AS至少有一台自己的边界网关路由器。因此，每个AS的边界网关路由器可以转发数据包到其他AS的边界网关路由器，无需借助于AS内到AS间的路由。
BGP连接：在各个AS的BGP发言人之间有一个BGP会话进程，通过会话沟通路由，经过声明的AS到达某目标网络。
本文档中，我们对构成BGP连接的BGP发言人加以额外限制：他们必须是自己直接共享数据链路子网。因此，相邻AS间的BGP会话无需AS内或AS间的路由。超出本文范围的案例可能与该限制不符。

因此，在每个连接中，每个AS拥有一个以上的BGP发言人和边界网关路由器，这些BGP发言人和边界网关路由器分布在共享数据链路子网上。注意到， BGP发言人不一定是边界网关路由器，反之亦然。一条连接上一个AS的BGP发言人声明的路径可以被同一个共享子网上其他AS的边界网关路由器使用，也就是非直接的邻居是允许的。

一个AS内的流量，要么是源于该AS，要么是终于该AS（也就是说，IP数据包的源IP或目的IP在该AS内）。符合以上描述的流量称为"本地流量"，否则称为"过渡流量"。BGP使用的主要目的是控制过渡流量。
按照某AS如何处理过渡流量，AS可以分为以下几类：
末端AS：只连接到一个其他AS。自然地，末端AS只运输本地流量。
多宿主AS：连接到超过一个的其他AS，但不运输过渡流量。
过渡AS：连接到超过一个的其他AS，可以运输本地和过渡流量。
一个完整的AS path提供了有效和简捷的方式来避免路由回路、消除伴随距离向量算法的"计数到无穷"问题，因此，BGP没有对AS之间的连接拓扑加以任何限制。
3. 互联网中的BGP
3.1 拓扑学考虑
互联网拓扑可以视作过渡AS、多宿主AS和末端AS的任意互连。为了尽可能减少对目前互联网结构的影响，末端和多宿主AS不一定要使用BGP。这些AS 可以运行其他的协议（比如，EGP）来与过渡AS交换网络可达性信息。使用BGP的过渡AS将对这些信息做标记，以表明其学习自BGP以外的方法。BGP 不一定运行于末端或多宿主AS，这就不会对源于或终于末端AS或多宿主AS的数据包的AS间路由质量产生负面影响。

然而，仍然建议在末端和多宿主AS上使用BGP。在这些情况下，BGP相比其他目前使用的协议（比如EGP），可以提供更优的带宽和性能。另外，这将减少默认路由的使用，为多宿主AS的AS间路由提供更好选择。
3.2 BGP的整体特性
整体水平上，BGP用来在多个自治系统间传递路由信息。其信息流如下图示：
　　 +-----------+　+------------+
BGP　|　 BGP　 |　 BGP　 |　 BGP |　 BGP
　 -------------------+ +--------------------------+ 　+----------
|　 IGP　 | 　|　 IGP |
　　 +------------+ +-----------+
<-AS A-->　<--AS B->
这张图表说明，在AS间只用BGP传输信息，而在AS内BGP和IGP均可以传输信息。确保AS内BGP和IGP间路由信息的兼容性，是一个重大问题，最后将在附录A中详细讨论。
3.3 BGP邻居关系
互联网视作随意连接的AS的集合。通过BGP直接连接的路由器就是BGP发言人。BGP发言人可以在同一AS内，也可以在不同AS内。每个AS的BGP 发言人互相通信，遵照每个AS建立的策略，交换网络可达性信息。对某BGP发言人，如果与其他BGP发言人通信而且那个BGP发言人在不同的AS，则那个其他 BGP发言人称为外部对等体，而如果在相同的AS内，则称为内部对等体。

在一个AS内可以有许多BGP发言人并被认为是需要的。通常，如果一个 AS与其他AS有多个连接，则需要多个BGP发言人。所有BGP发言人代表着相同AS，对外保持统一形象。这就要求他们之间保持一致的路由信息。这些路由器可以通过BGP或其他方法互相通信。在同一AS内的所有BGP发言人的策略约束必须一致。一些技术，如使用带标记的IGP（参见A.2.2），可以用来探测可能的矛盾。

对于外部对等体，对等体分别属于不同的AS，但共享同一数据链路子网。这共同的子网用来在对等体之间运输BGP信息。如果BGP使用通过一个干预的AS，则将使AS path信息无效。自治系统号必须在BGP中使用，用来标明BGP发言人所在的自治系统。

4. 路由聚合的需要

当路由信息由各部分聚合时，一致的BGP-4实现需要对其声明。例如，一个在自治系统边界的BGP发言人必须能产生某目标IP集合的聚合路由（在 BGP -4 术语中该目标IP集合称为网络层可达性信息，NLRI），在它基础上进行管理（包括路由器自身代表的地址），即使当这些地址不是同时全部可达的。
当聚合的NLRI产生时，一致实现应能给予声明。
当NLRI解聚合时，一致实现应能给予声明。
当出现重叠路由时，一致实现应能支持如下选项：
－安装聚合和详细的路由
－只安装详细路由
－安装聚合路由
－均不安装
一定的路由策略可能依赖于NLRI（比如，"研究"与"商业"）。因此，一个运行路由聚合的BGP发言人，可能的情况下，应该能认知聚合NLRI时路由策略的潜在实现。
5. BGP的策略生成
BGP通过各种路由参数选择和约束，实现策略。策略并不直接编入协议。而是，策略通过BGP的配置信息来实现。
BGP实现策略的途径有，影响从多条路径中的选择，控制路由信息的下步传递。策略由AS的管理者决定。
路由策略与政治、安全或经济考虑有关。
例如，如果一个AS不愿意将流量运输到其他AS，它可以制定策略来禁止。如下是一些能够改变BGP使用的路由策略的例子：
1. 一个多宿主AS可以拒绝成为其他AS的过渡AS。（它只告知那些目标网络在自己AS内部的路由。）
2. 一个多宿主AS可以指定成为几个相邻AS的过渡AS，也就是说，一部分而不是全部AS，可以把该多宿主AS作为过渡AS。（它只把它的路由信息告知被允许的AS。）
3. 一个AS向外运输流量时，可以决定是否偏爱特定的AS。

BGP应用可以控制许多性能相关的标准：
1. 一个AS可以最少化过渡AS的数目。（AS path越短，越可能被采用。）
2. 过渡AS的权重。如果一个AS决定，两个以上的AS path可以用来到达目标网络，那么，AS可以使用多种方法来决定采纳哪个候选AS path。一个AS的权重值由以下几个因素决定：径向距离，链路速度，容量，拥塞的趋势，和运行质量。这些性能值可以由BGP以外的方法决定。
3. 优先考虑内部路由，而不是外部路由。
为了一个AS的统一性，那些产自策略和/或正常路由选择过程的等值路径，必须以一致的方式解决。
BGP的基础，是这样一个规则：一个AS只把自己使用的路由通知给相邻的AS。该规则反映了目前互联网常用的"一跳接一跳"的路由方式。
6. BGP的路径选择
BGP 发言人的一项主要任务，是评价诸条从自身出发到那些用网络前缀表达的目的地的路径，从中选出最优，应用合适的策略约束，然后将它通知给所有的BGP邻居。关键问题是如何评价和比较这些不同的路径。传统的距离向量协议（比如RIP）中，每条路径只有一个度量。因此，不同路径的比较简化为两个值的比较。AS间路由的复杂性，源自人们在如何评价外部路由的问题上缺少共同认可的度量。于是，每个AS拥有自己的一套对路径的评价指标。

BGP发言人构建的路由数据库，由所有可用的路径和每条路径可达的目标集合（表达为网络前缀）组成。为了达到前面讨论的目的，考虑目标网络所对应的可用路径，是有用的。大多数情况下，我们期望找到唯一一条可用路径。但是，当不是这样时，所有可用的路径应当保存，当主要路径缺失时，保存能以最快的速度适应，（产生新的主要路径）。任何时候，只有主要路径才会被广播。

路径选择过程可以形式化为，对所有可用路径及相对应的目标IP，定义完整的优先级。定义这种优先级的一种方法，是定义一个函数，将每条完整的AS path映射成一个非负整数，用来表示该路径的优先级。路径选择于是简化为，将该函数应用到所有可用路径，再选择最高的优先级。

在真实的BGP实现中，为路径分配优先级的标准在配置信息中说明。
为路径分配优先级的过程源于以下几个信息：
1. 整条AS path显示的信息
2. 由AS path和BGP以外信息（比如，配置信息中的路由策略约束）引申出来的混合信息。
为路径分配优先级的可能的标准为：
－AS数目。AS越少，该条路径越好。
－策略考虑。BGP对基于策略路由的支持，源于对分布式路由信息的控制。一个BGP发言人可能知道几条策略约束（包括自身AS的内外），进行合适的路径选择。不遵从策略要求的路径不被考虑。
－某些AS是否在路径中存在。依靠BGP以外的信息，一个AS可以知道某些AS的一些性能特点（比如，带宽，MTU，AS间径向距离），然后选择偏爱程度。
－路径起源。由BGP学习而来的整条路径（也就是说，路径终点与路径的上一个AS在BGP内部）相比那些部分学习自EGP及其他方法的路径，是更优的。
－AS path子集。通往同一目的地，一个较长AS path的子集将受到偏爱。在该较短AS path中存在的任何问题都也是较长AS path的问题。
－链路动态。稳定的路径比不稳定的路径更受欢迎。注意，这个标准应被小心使用，避免出现路由抖动。一般来说，任何依赖于动态信息的标准都可能引发路由不稳定，所以应谨慎对待。

7. 支持路由策略的必备集合

BGP策略以配置信息的形式实现。该信息不直接编入协议。因此，BGP可以提供非常复杂的路由策略。但是，并不要求所有的BGP实现支持这些策略。

我们不试图将路由策略标准化使其适用于每个BGP实现，强烈鼓励所有的实现支持如下的路由策略集：

1. BGP实现应允许一个AS控制向相邻AS广播由BGP学习来的路由。实现还应支持对地址前缀大小的控制。实现还应支持对自治系统大小的控制，不管该自治系统是起源，还是邻居。如果某路由对某外部对等体按上述控制声明，则需注意该路由不能向那个对等体通告。特别地，本地系统必须明确向那个对等体通告，该路由现在不可用。
2. BGP实现应允许一个AS对某条路径优先考虑（当存在多条可用路径时）。实现至少具备以下相同功能，允许管理者对来自邻居的路由设置优先级。优先级的大小应在0到2^(31)-1之间。
3. BGP实现应允许一个AS忽略某些在AS_PATH属性中存在特定AS的路由。该功能的实现，可以使用[2]中说明的技术，设置这些AS的"weight"为"infinity"。路由选择过程必须忽略那些"weight"为"infinity"的路由。
8. 与其他外部路由协议的关系
本部分建议的指导方针与[3]中陈述的指导方针一致。

一个AS应通告它内部目标网络的最小聚合及与实际使用的地址空间的关系。这可以被非BGP-4的AS的管理者用来决定从某条聚合路由可以解聚出多少路由。

一个携带ATOMIC_AGGREGATE路径属性的路由，不应传递于BGP-3或EGP2，除非这种传递不出现路由NLRI的解聚。
8.1 与EGP2交换信息
本文档对于BGP-4与EGP2间的路由信息交换，建议如下方针。

为过渡顺利，一个BGP发言人EGP2和BGP-4都可以参与。因此，一个BGP发言人接收IP可达性信息，可能产自EGP2，也可能产自BGP- 4。由 EGP2产生的信息，将ORIGIN路径属性设为1后，可插入BGP-4。同样地，由BGP-4产生的信息也可以插入EGP2。但是，第二种情况，当从 BGP-4接收来的IP前缀代表连续的A/B/C类网络集合时，应清楚潜在的解聚信息。由BGP-4接收的NLRI代表IP子集，插入时，要求BGP发言人将相应的网络插入EGP2。本地系统将提供控制EGP2与BGP-4之间可达性信息交换的机制。特别地，当把来自BGP-4的可达性信息插入EGP2 时，一个一致实现要求支持所有如下选项：

－插入默认的（0.0.0.0），不传递其他NLRI
－允许受控的解聚，但只对特定路由；
－允许传递非聚合的NLRI
－允许只传递非聚合的NLRI

在一个参与BGP-4的BGP发言人和一个单纯的EGP2发言人之间以EGP2交换路由信息的情况，只可能发现在域（自治系统）边界。
8.2 与BGP-3交换信息
本文档对于BGP-4与BGP-3间的路由信息交换，建议如下方针。

为过渡顺利，一个BGP发言人BGP-3和BGP-4都可以参与。因此，一个BGP发言人接收IP可达性信息，可能产自BGP-3，也可能产自BGP-4。

一个BGP发言人可能按如下方式将来自BGP-4的信息插入到BGP-3。

如果一条BGP-4路由的AS_PATH属性带有AS_SET路径段，那么，BGP-3路由的AS_PATH属性应为将此AS_SET段视作 AS_SEQUENCE段，最后的AS_PATH为单纯的一个AS_SEQUENCE。这个过程损失了set/sequence信息，但不影响预防路由回路，但可能影响策略，如果策略是建立在AS_PATH属性的内容或顺序上的话。

把源自BGP-4的NLRI插入BGP-3，当从BGP-4接收来的IP前缀代表连续的A/B/C类网络集合时，应清楚潜在的解聚信息。由BGP- 4接收的NLRI代表IP子集，插入时，要求BGP发言人将相应的网络插入BGP-3。本地系统将提供控制BGP-3与BGP-4之间可达性信息交换的机制。特别地，当把来自BGP-4的可达性信息插入BGP-3时，一个一致实现要求支持所有如下选项：

－插入默认的（0.0.0.0），不传递其他NLRI
－允许受控的解聚，但只对特定路由；
－允许传递非聚合的NLRI
－允许只传递非聚合的NLRI

在一个参与BGP-4的BGP发言人和一个单纯的BGP-3发言人之间以BGP-3交换路由信息的情况，只可能发现在自治系统边界。在一个单独的自治系统内部，所有BGP发言人的会话必须要么是BGP-3，要么是BGP-4，不能是混合体。
9. 在虚拟交换线路上的运作
BGP使用在虚拟交换子网（SVC）上，被要求产生尽可能少的流量。特别地，可能被要求消除由周期性KEEPALIVE消息所产生的流量。BGP包含了一个机制，在虚拟交换线路（SVC）服务运作时，避免SVCs始终开启，允许它终止周期性KEEPALIVE消息的发送。

本部分论述了如何在没有周期性KEEPALIVE消息的条件下，使用智能的SVC管理，使SVC使用最少。所提议的方案也适用于"永久"线路，"永久"线路支持类似链路质量监测的特性，或者可以显示请求来决定链路连接的状态。
9.1 建立BGP连接
通过在OPEN消息中设定Hold Time为0来实现
9.2 线路管理器特性
线路管理必须具备足够的功能来弥补周期性KEEPALIVE消息的缺失：
－必须能够在失败发生的可预见的有限时间内，确定链路层的不可达性。
－关于确定不可达性，应该：
－开启一个配置死寂的计数器（与典型的保持计数器值相比）。
－试图重建链路层连接。
－如果死寂计数器终止，应该：
－发送一个内部线路DEAD指示给TCP。
－如果连接重建，应该
－取消死寂计数器
－发送一个内部线路UP指示给TCP。
9.3 TCP特性
TCP须做一点修改，来处理来自线路管理器的内部通告：
－DEAD：清除发送队列，取消TCP连接。
－UP：发送任何队列数据，或者允许向进程传递TCP调用
9.4 混合特性
一些应用可能无法保证BGP进程和线路管理器统一工作；也就是说，当一个停止或崩溃时，另一个仍独立存在。如果这是事实，在BGP进程和线路管理器之间周期性的双向握手就需要实现。如果BGP进程发现线路管理器死亡，它就关闭所有相关的TCP连接。如果线路管理器发现BGP进程死亡，它将关闭所有与BGP进程相关的连接，拒绝新连接。

10. 结论

BGP协议为域间路由提供高度的控制和柔韧性，执行策略约束，避免路由回路。在此说明的指导方针为BGP使用提供了一个起点，随着BGP增长，它将提供更多高级和可管理的路由方法。
附录A.　BGP与IGP的关系
本部分概述了BGP与IGP交换路由信息的方法。这些方法此处不提议作为标准BGP使用的一部分。这些方法仅是信息补充。应用在引入IGP信息时，可能需要考虑这些方法。

这是适用于一般IGP的概述信息。
BGP与某特定IGP的关系不在此部分讨论。特定IGP的方法应在其他文档论述，在将来应成为标准化用法。
概论
根据定义，所有过渡AS必须能运输那些源于或终于该AS的流量。这要求在BGP和那个特定AS使用的内部网关协议（IGP）之间具有一定的联系和协调。一般来说，源于外部AS的流量将同时穿越内部网关（只支持IGP）和边界网关（支持IGP和BGP）。所有内部网关都通过IGP从一个以上的边界网关那儿接收有关外部路由的信息。

依靠在一个AS内传播BGP信息的机制，BGP和IGP之间的一致性须得到特别关注，因为状态的改变可能以不同的速度在AS 内传播。可能出现时间窗，两个时刻分别为：在某边界网关（A）从相同AS内的另一台边界网关（B）获取新的BGP路由信息；AS的IGP能够路由过渡流量到边界网关（B）。在这两个时刻之间，错误路由和"黑洞"均可能发生。

为了尽可能减轻这个路由问题，在AS的所有内部网关准备好将目标为外部 IP 的流量发往正确出口边界网关（B）之前，边界网关（A）不应该向外部对等体广播那些通过边界网关（B）运往外部目标网络的路由。换句话说，内部路由须会聚一个合适的出口网关，然后才能广播通过该出口网关前往外部对等体的路由。
A.2 实现稳定关系的方法
下面的讨论概述了几个能实现在AS内BGP和IGP之间稳定关系的技术。
A.2.1 通过IGP传递BGP信息
BGP 提供自己的机制在AS内传递BGP信息，同样，只要IGP支持全部路由信息的洪泛（提供分散BGP信息的机制）和一条通路的会聚（使得机制有效原子化），就可以用来传输BGP信息。如果一个IGP用来传递BGP信息，前述的异步时间将不复存在，因为AS内部的BGP信息传递与IGP同步，IGP的会聚或多或少与新路由信息的到来同步。注意，IGP只运输BGP信息，不对其解析或处理。
A.2.2 标记的内部网关协议
当向外的路由在 AS内传递时，一定的IGP可以用它们的出口点给它们做标记。每个边界网关应使用同一的标记声明外部路由信息（通过BGP接收），不管这些路由信息是进入 IGP还是传递到其他的内部对等体（拥有相同AS号的对等体）。边界网关产生的标记必须唯一对应那个特定的边界网关——不同的边界网关必须使用不同的标记。

在一个AS内的所有边界网关必须遵守如下两条规则：
1. 如果边界网关A从内部对等体接收到信息声称某些目标网络不可达，则它必须向所有外部对等体传递该信息。
2. 如果边界网关A从内部对等体接收到关于某些可达目标网络X的信息，则它必须拥有到X的IGP路由，而且IGP和BGP的路由信息都有对应标记，否则无法将这些信息传递到任何外部对等体。

这些规则保证了除非IGP正确支持，否则不向外声明路由信息。它也可以部分避免"黑洞"。在AS内标记BGP和IGP的一种方法是使用出口边界网关的IP地址。这种情况下，BGP的UPDATE消息的"gateway"域将用作标记。
A.2.3 封装
封装为运输AS间过渡流量提供了最简单的机制（关于IGP和BGP的联系）。用这种方法，过渡流量封装在一个地址为出口网关的IP数据包内。这种方法对IGP的唯一要求是能够支持同一AS内边界网关间的路由。

前往某些外部目标网络X的出口网关A的地址，通过A向同一AS内其他边界网关发送的BGP OPEN消息中的BGP标识符进行声明。为了路由流量到目标X，AS内的每个边界网关都封装流量到以网关A为地址的IP数据包。然后，网关A解封装，将原始数据包发送到外部AS的对应网关。

因为封装不依靠IGP来运输外部路由信息，所以在BGP和IGP之间无需同步。一些方法用来标识包含封装IP的数据包，如用IP协议类型码，必须在使用前定义。注意，如果一个封装后的数据包的长度非常接近MTU，这个数据包将被那个执行封装的网关分片。
A.2.4 遍布的BGP
如果一个AS内的所有路由器都是BGP发言人，那么就没有必要联系BGP和IGP。这种情况下，AS内的所有路由器拥有BGP路由的全部信息。IGP只用来在AS中路由，不再有BGP路由被导入成IGP。

如果路由器按此方式工作，它们必须能够完成对路由表的循环查找。第一次查找将使用一条BGP路由来建立出口路由器，第二次查找将决定前往出口路由器的IGP路径。这种情形下，IGP不携带任何外部信息，所有BGP发言人一旦获得路由的新信息，该AS内的路由器将很快会聚。因为不存在为IGP的会聚延迟，一个应用能广播这些路由，而没有延迟。
A.2.5 其他情况
有些AS的IGP，可能既无法传输BGP信息，也无法标记外部路由（比如，RIP）。另外，封装可能不可行或不被接受。这些情况下，以下两条规则须被遵守：

(1). 如果边界网关A从内部对等体接收到信息声称某些目标网络不可达，则它必须向所有外部对等体传递该信息。
(2). 如果边界网关A从内部对等体接收到关于某些可达目标网络X的信息，则它必须拥有到X的IGP路由，而且有足够的时间使IGP路由会聚，否则无法将这些信息传递到任何外部对等体。

以上规则只说明了传递BGP路由信息到其他AS的必要（但不充分）条件。与标记的IGP相比，这些规则不能保证，在传递路由到其他AS之前，到出口网关的内部路由存在。如果IGP会聚时间比某小值X还小，IGP和BGP不同步造成的时间窗也将小于X，那么，路由不稳定是异常短暂的，这个问题就可以忽略。至于这个X的合理取值，尚待研究，但至少应小于1秒。如果IGP会聚时间无法忽略，就需要不同的方法。适合这种情形的机制和技术尚待深入研究。

边界网关协议（BGP）是运行于 TCP 上的一种自治系统的路由协议。 BGP 是唯一一个用来处理像因特网大小的网络的协议，也是唯一能够妥善处理好不相关路由域间的多路连接的协议。 BGP 构建在 EGP 的经验之上。 BGP 系统的主要功能是和其他的 BGP 系统交换网络可达信息。网络可达信息包括列出的自治系统（AS）的信息。这些信息有效地构造了 AS 互联的拓朴图并由此清除了路由环路，同时在 AS 级别上可实施策略决策。

中文名: 边界网关协议
外文名: Border Gateway Protocol

类型: 外部网关协议EGP
简称: BGP; 释义

（BGP/BGP4：Border Gateway Protocol，边界网关协议）

BGP-4 提供了一套新的机制以支持无类域间路由。这些机制包括支持网络前缀的通告、取消 BGP 网络中 “ 类 ” 的概念。 BGP-4 也引入机制支持路由聚合，包括 AS 路径的集合。这些改变为提议的超网方案提供了支持。BGP-4 采用了路由向量路由协议，在配置BGP时，每一个自治系统的管理员要选择至少一个路由器作为该自治系统的“BGP发言人”。

1989年发布了主要的外部网关协议：边界路由协议（BGP），新版本BGP-4 是在1995年发布的。

BGP路由选择协议执行中使用4种分组：打开分组（open）、更新分组（update）、存活分组（keepalive）、通告分组（notification）。

简介

BGP的结构和功能

BGP用于在不同的自治系统（AS）之间交换路由信息。当两个AS需要交换路由信息时，每个AS都必须指定一个运行BGP的节点，来代表AS与其他的AS交换路由信息。这个节点可以是一个主机。但通常是路由器来执行BGP。两个AS中利用BGP交换信息的路由器也被称为边界网关（Border Gateway）或边界路由器（Border Router）[1] 。

由于可能与不同的AS相连，在一个AS内部可能存在多个运行BGP的边界路由器。同一个自治系统(AS)中的两个或多个对等实体之间运行的BGP 被称为 IBGP（Internal/Interior BGP）。归属不同的AS的对等实体之间运行的BGP称为EBGP （External/Exterior BGP）。在AS边界上与其他AS交换信息的路由器被称作边界路由器(border/edge router)。在互联网操作系统（Cisco IOS）中，IBGP通告的路由的距离为200，优先级比EBGP和任何内部网关协议（IGP）通告的路由都低。其他的路由器实现中，优先级顺序也是EBGP高于IGP，而IGP又高于IBGP。

BGP属于外部网关路由协议，可以实现自治系统间无环路的域间路由。BGP是沟通Internet广域网的主用路由协议，例如不同省份、不同国家之间的路由大多要依靠BGP协议。BGP可分为IBGP（Internal BGP）和EBGP（External BGP）。BGP的邻居关系（或称通信对端/对等实体）是通过人工配置实现的，对等实体之间通过TCP（端口179)会话交互数据。BGP路由器会周期地发送19字节的保持存活keep-alive消息来维护连接（默认周期为30秒）。在路由协议中，只有BGP使用TCP作为传输层协议。

IETF先后为BGP制定了多个建议，分别为：

RFC 4271：当前正使用的BGP协议版本，称之为BGP4。

RFC 1654：BGP4协议的第一个规范。

RFC 1105、RFC 1163、RFC 1267、RFC1771：BGP4之前的BGP版本。

特点

BGP属于外部或域间路由协议。BGP的主要目标是为处于不同AS中的路由器之间进行路由信息通信提供保障。BGP既不是纯粹的矢量距离协议，也不是纯粹的链路状态协议，通常被称为通路向量路由协议。这是因为BGP在发布到一个目的网络的可达性的同时，包含了在IP分组到达目的网络过程中所必须经过的AS的列表。通路向量信息时十分有用的，因为只要简单地查找一下BGP路由更新的AS编号就能有效地避免环路的出现。BGP对网络拓扑结构没有限制，其特点包括：

（1）实现自治系统间通信，传播网络的可达信息。BGP 是一个外部网关协议，允许一个AS与另一个AS进行通信。BGP允许一个AS向其他AS通告其内部的网络的可达性信息，或者是通过该AS可达的其他网络的路由信息。同时，AS也能够从另一个AS中了解这些信息。与距离向量选路协议类似，BGP为每个目的网络提供的是下一跳（next-hop）结点的信息。

（2）多个BGP路由器之间的协调。如果在一个自治系统内部有多个路由器分别使用BGP与其他自治系统中对等路由器进行通信，BGP可以协调者一系列路由器，使这些路由器保持路由信息的一致性。

（3）BGP支持基于策略的选路（policy-base routing）。一般的距离向量选路协议确切通告本地选路中的路由。而BGP则可以实现由本地管理员选择的策略。BGP路由器可以为域内和域间的网络可达性配置不同的策略。

（4）可靠的传输。BGP路由信息的传输采用了可靠地TCP协议。

（5）路径信息。在BGP通告目的网络的可达性信息时，处理指定目的网络的下一跳信息之外，通告中还包括了通路向量（path vector），即去往该目的网络时需要经过的AS的列表，使接受者能够了解去往目的网络的通路信息。

（6）增量更新。BGP不需要再所有路由更新报文中传送完整的路由数据库信息，只需要在启动时交换一次完整信息。后续的路由更新报文只通告网络的变化信息。这种网络变化的信息称为增量（delta）。

（7）BGP支持无类型编制（CIDR）及VLSM方式。通告的所有网络都以网络前缀加子网掩码的方式表示。

（8）路由聚集。BGP允许发送方把路由信息聚集在一起，用一个条目来表示多个相关的目的网络，以节约网络带宽。

（9）BGP还允许接收方对报文进行鉴别和认证，以验证发送方的身份。

BGP消息类型及状态转换

BGP使用如下四种消息类型：

Open消息：Open消息是TCP连接建立后发送的第一个消息，用于建立BGP对等体之间的连接关系。
Keepalive消息：BGP会周期性地向对等体发出Keepalive消息，用来保持连接的有效性。
Update消息：Update消息用于在对等体之间交换路由信息。它既可以发布可达路由信息，也可以撤销不可达路由信息。
Notification消息：当BGP检测到错误状态时，就向对等体发出Notification消息，之后BGP连接会立即中断。

BGP邻居建立中的状态和过程如下：

空闲（Idle）：为初始状态，当协议激活后开始初始化，复位计时器，并发起第一个TCP连接，并开始倾听远程对等体所发起的连接，同时转向Connect状态。。
连接（Connect）：开始TCP连接并等待TCP连接成功的消息。如果TCP连接成功，则进入OpenSent状态；如果TCP连接失败，进入Active状态。
行动（Active）：BGP总是试图建立TCP连接，若连接计时器超时，则退回到Connect状态，TCP连接成功就转为Open sent状态。
OPEN发送（Open sent）：TCP连接已建立，自己已发送第一个OPEN报文，等待接收对方的Open报文，并对报文进行检查，若发现错误则发送Notification消息报文并退回到Idle状态。若检查无误则发送Keepalive消息报文，Keepalive计时器开始计时，并转为Open confirm状态。
OPEN证实（Open confirm）：BGP等待Keepalive报文，同时复位保持计时器。如果收到了Keepalive报文，就转为Established状态，邻居关系协商完成。如果系统收到一条更新或Keepalive消息，它将重新启动保持计时器；如果收到Notification消息，BGP就退回到空闲状态。
已建立（Established）：即建立了邻居（对等体）关系，路由器将和邻居交换Update报文，同时复位保持计时器。

BGP路由通告原则

BGP在进行路由通告的时候，需要遵循以下原则：

多条路径时，BGP Speaker只选最优的给自己使用（负载均衡和FRR除外）。
BGP Speaker只把自己使用的路由（最优路由）通告给相邻体。
BGP Speaker从EBGP获得的路由会向自己所有BGP相邻体通告（包括EBGP和IBGP）。
BGP Speaker从IBGP获得的路由不向自己的IBGP相邻体通告（反射器除外）。
BGP Speaker从IBGP获得的路由是否通告给自己的EBGP相邻体要根据IGP和BGP同步的情况来决定。
当收到对端的refresh报文并且本端邻居支持refresh能力，BGP Speaker将把自己所有BGP路由通告给对等体。
GR过程中，主备倒换方在GR结束时BGP Speaker会把自己所有BGP路由通告给对等体。

BGP属性

路由器发送关于目标网络的BGP更新消息，更新的度量值被称为路径属性。属性可以是公认的或可选的、强制的或自由决定的、传递的或非传递的。属性也可以是部分的。并非组织的和有组合的都是合法的，路径属性分为4类：公认必遵、公认自决、可选过渡、可选非过渡。

公认属性：

是公认所有BGP实现都必须识别的属性，这些属性被传递给BGP邻居。
公认强制属性必须出现在路由描述中，公认自由决定属性可以不出现在路由描述中。

可选属性：

非公认属性被称为可选的，可选属性可以是传递的或非传递的。
可选属性不要求所有的BGP实现都支持。
对于不支持的可选传递属性，路由器将其原封不动的传递给其他BGP路由器，在这种情况下，属性被标记为部分的。
对于可选非传递属性，路由器必须将其删除，而不将其传递给其他BGP路由器。

（1）公认必遵（Well-Known Mandatory）

ORIGIN（起源）：这个属性说明了源路由是怎样放到BGP表中的。有三个可能的源IGP,EGP,以及INCOMPLETE.路由器在多个路由选择的处理中使用这个信息。路由器选择具有最低ORIGIN类型的路径。

AS_PATH（AS路径）：指出包含在UPDATE报文中的路由信息所经过的自治系统的序列。

Next_HOP(下一跳)声明路由器所获得的BGP路由的下一跳，对EBGP会话来说，下一跳就是通告该路由的邻居路由器的源地址。

（2）公认自决（Well-Known Discretionary）

LOCAL_PREF(本地优先级)：本地优先级属性是用于告诉自治系统内的路由器在有多条路径的时候，怎样离开自治系统。本地优先级越高，路由优先级越高。

ATOMIC_AGGREGATE(原子聚合)：原子聚合属性指出已被丢失了的信息。

（3）可选过渡（Optional Transitive）

AGGREGATOR(聚合者)：此属性标明了实施路由聚合的BGP路由器ID和聚合路由的路由器的AS号。

COMMUNITY(团体)：此属性指共享一个公共属性的一组路由器。

（4）可选非过渡（Optional Nontransitive）

MED(多出口区分)：该属性通知AS以外的路由器采用哪一条路径到达AS,它也被认为是路由的外部度量，低MED值表示高的优先级。

ORIGINATOR_ID(起源ID)：路由反射器会附加到这个属性上，它携带本AS路由器的路由器ID，用以防止环路。

CLUSTER_LIST(簇列表)：此属性显示了采用的反射路径。

协议结构

Marker （16 bytes） Length （2 bytes） Type （1 byte）

Marker – 信息包含信息接收端可预测值。

Length – 包含协议头的信息长度。

Type –信息类型。信息可能是：Open、Update、Notification、Keepalive。

打开（Open）分组，用来与相邻的另一个BGP发言人建立联系

更新（Update）分组，用来发送某一路由的信息，以及列出多条要撤销的路由

保活（Keepalive）分组，用来确认打开分组和周期性地证实邻站关系

通知（Notification）分组，用来发送检测到的差错[2]

在传输协议连接建立之后，各端发送的第一个信息是 OPEN 信息。如果 OPEN 信息可以接收，会返回发送确认 OPEN 信息的 KEEPALIVE 信息。一旦 OPEN 信息获得确认，UPDATE、KEEPALIVE 和 NOTIFICATION 信息进行相互交换。

报文结构

BGP的报文结构如下所示[1]

标记

长度

类型

报文数据（变长）

16字节 2字节 1字节

BGP的报文分成报文与报文数据两部分，其中，BGP报文数据根据不同的报文类型有所不同，报文头由以下3个字段构成：

（1）标记（Marker）字段。标记字段由16个字节构成。标记字段的值是一个通信双方（对等路由器）都可认可的字节串，双方都统一使用改制来标识一个合法的BGP报文的开始。通常，标记字段用于承载鉴别信息。对于通信双方，在任何情况下标记的值都必须保持一致。标记字段用于报文接收的同步。由于BGP报文用过TCP来简化，而TCP 协议是一个无结构的流（stream）传输协议。在TCP协议上部位高层提供数据流的结构识别，因此也无法为BGP标识两个报文之间的边界。由于传输协议不指定报文边界，因此，为了确保发送方和接收方的报文边界准确保持同步，BGO要求在每个报文的开头放置了一个双方已知的序列，接收方通过该序列来检验报文头的正确性。

（2）报文长度，16比特，制定了以字节为单位计算的报文总长度。最小的报文为19i节，最大允许报文长度为4096字节。

（3）报文类型，1字节，指出报文所属的类型。

报文类型

BGP的路由更新消息一BGP报文形式在路由器间交换，BGP为了实现其功能定义了4种报文类型。[1]

代码	类型	说明
1	OPEN	初始化对等路由器间的通信
2	UPDATE	更新：通告或撤销路由
3	NOTIFICATION	对不正确BGP报文的通知
4	KEEPALIVE	测试与对等路由器的连接性

（1）打开（OPEN）报文

当两个BGP对等路由器之间建立以一个TCP连接以后，就分别发送一个打开报文，声明各自的自治系统号，并确定其他操作参数。

路由器接受到来自对等路由器的OPEN 报文时，BGP将发送一个KEEPALIVE报文。在路由器之间交换选路信息之前，通信双方都必须发送一个OPEN报文，并接受一个KEEPALIVE报文。KEEPALIVE报文可以用作对OPEN报文的确认。

（2）更新（UPDATE）报文

对等的BGP路由器之间创建了TCP连接，并成功接收到对OPEN报文的KEEPALIVE确定报文，对等路由器之间就可以使用路由更新消息报文来通告网络的可达性信息。通告的的内容可以是新的可达的目的网络，也可以是通告撤销原来的某些目的网络的可达性。

（3）保持激活（KEEPALIVE）报文

保持激活报文用于在两个BGP对等路由器之间定期测试网络连接性，并证实对等路由器的正常工作。由于TCP协议本身没有提供自动的连接状态的通知机制，对等路由器之间定制交换KEEPALIVE报文可以使BGP实体能够检测TCP连接是否工作正常。保持激活报文仅包含标准的BGP报文头（类型4），报文长度为19字节。

（4）通知（NOTIFICATION）报文

BGP在发现错误时（或需要进行控制时），可以利用通知报文来通知对等路由器。一旦通知报文，路由器检测来检查到了出现的错误，BGP就会向对等路由器发送一个通知报文，然后关闭TCP连接终止通信。

BGP MCE

MCE概述

MCE 功能是Multi-CE 的简称，具有MCE 功能的网络设备可以在BGP/MPLS VPN 组网应用中承担多个VPN 实例的CE 功能，减少用户网络设备的投入。

工作原理

BGP/MPLS VPN以隧道的方式解决了在公网中传送私网数据的问题，但传统的BGP/MPLS VPN架构要求每个VPN实例单独使用一个CE与PE相连，如图所示。

随着用户业务的不断细化和安全需求的提高，很多情况下一个私有网络内的用户需要划分成多个VPN，不同VPN 用户间的业务需要完全隔离。此时，为每个VPN 单独配置一台CE 将加大用户的设备开支和维护成本；而多个VPN 共用一台CE，使用同一个路由表项，又无法保证数据的安全性。使用MCE 功能，可以有效解决多VPN 网络带来的用户数据安全与网络成本之间的矛盾，它使用CE 设备本身的VLAN 接口编号与网络内的VPN 进行绑定，并为每个VPN 创建和维护独立的路由转发表（Multi-VRF）。这样不但能够隔离私网内不同VPN 的报文转发路径，而且通过与PE 间的配合，也能够将每个VPN 的路由正确发布至对端PE，保证VPN报文在公网内的传输。

下面举例介绍MCE对多个VPN的路由表项进行维护，并与PE交互VPN路由的过程：

如右图所示，左侧私网内有两个VPN站点：VPN1 和VPN2，分别通过MCE设备接入MPLS骨干网，其中VPN1 和VPN2 的用户，需要分别与远端VPN1用户和VPN2 用户建立VPN隧道。通过配置MCE 功能，可以在MCE 设备上为VPN1 和VPN2 创建各自的路由转发表，并使用VLAN 2 接口与VPN1 进行绑定、VLAN 3 与VPN2 进行绑定。在接收路由信息时，MCE 设备根据接收接口的编号，即可判断该路由信息的来源，并将其维护到对应VPN 的路由转发表中。同时，在PE1 上也需要将连接MCE 的接口与VPN 进行绑定，绑定的方式与MCE 设备一致。MCE与PE1 之间通过Trunk 链路连接，并允许VLAN 2 和VLAN 3 的报文携带VLAN Tag 传输，从而使PE1 在接收时可以根据报文所属VLAN 判别该报文属于哪一个VPN，将报文在指定的隧道内传输。

MCE 设备是如何将多个VPN 实例的私网路由信息准确传播到PE 设备？这包括两部分：MCE与VPN站点的路由信息交换，MCE与PE之间的路由信息交换。这些路由信息的交换都有很多种方法，如静态路由、RIP、OSPF、ISIS、BGP路由协议。如果使用BGP路由协议来实现路由信息交换，则就是使用BGP MCE功能，因此BGP MCE功能就是BGP协议支持VRF，能够实现VRF下BGP路由信息的交换。需要在MCE 上为每个VRF 实例配置BGP 对等体，并引入相应VPN 内的IGP 路由信息。由于各个VPN 间正常情况下是处在不同的AS 内，因此使用EBGP 进行路由的传播。[3]