路由器的三层转发主要依靠CPU进行,而三层交换机的三层转发依靠ASIC芯片完成,这就决定了两者在转发性能上的巨大差别。当然,三层交换机并不能完全替代路由器,路由器所具备的丰富的接口类型、良好的流量服务等级控制、强大的路有能力等仍然是三层交换机的薄弱环节。目前的三层交换机一般是通过VLAN来划分二层网络并实现二层交换的,同时能够实现不同VLAN间的三层IP互访。在讨论三层交换机的转发原理之前有必要交代一下不同网络的主机之间互访时的行为:


(1)源主机在发起通信之前,将主机的IP与目的主机的IP进行比较,如果两者位于同一个网段(用网络掩码计算后具有相同的网络号),那么源主机直接向目的主机发送ARP请求,在收到目的主机的ARP应答后获得对方的物理层(MAC)地址,然后用对方MAC作为报文的目的MAC进行报文发送。位于同一VLAN(网段)中的主机互访时属于这种情况,这时用于互连的交换机作二层交换转发;


(2)档源主机判断目的主机与主机位于不同的网段时,它会通过网关(Gateway)来递交报文,即发送ARP请求来获取网关IP地址对应的MAC,在得到网关的ARP应答后,用网关MAC作为报文的目的MAC进行报文发送。注意,发送报文的源IP是源主机的IP,目的IP仍然是目的主机的IP。位于不同VLAN(网段)中的主机互访时属于这种情况,这时用于互连的交换机作三层交换转发。


为了后续讨论的三层交换原理便于理解,这里简单介绍一下三层交换机内部结构,如图1所示:
 
三层交换结构

图1 三层交换机硬件结构
三层交换机内部的两大部分是ASID和CPU,它们的作用分别如下:
1.ASIC:完成主要的二三层转发功能,内部包含用于二层转发的MAC地址表以及用于IP转发的三层转发表;
2.CPU:用于转发的控制,主要维护一些软件表项(包括软件路由表、软件ARP表等等),并根据软件表项的转发信息来配置ASIC的硬件三层转发表。当然,CPU本身也可以完成软件三层转发。
从三层交换机的结构和各部分作用可以看出,真正决定高速交换转发的是ASIC中的二三层硬件表项,而ASIC的硬件表项来源于CPU维护的软件表项。
下面分别以两种组网情况下主机间的通信来解释三层交换机的转发原理。
组网1如图2所示,通信的源、目的主机连接在同一台三层交换机上,但它们位于不同VLAN(网段)。对于三层交换机来说,这两台主机都位于它的直连网段内,它们的IP对应的路由都是直连路由。

路由
图2 三层转发组网
图2中标明了两台主机的MAC、IP地址、网关,以及三层交换机的MAC、不同VLAN配置的三层接口IP。当PC A 向PC B 发起ICMP请求时,流程如下:(假设三层交换机上还未建立任何硬件转发表项)
1.PC A 首先检查出目的IP地址2.1.1.2(PC B)与自己不在同一个网段,因此它发出请求网关地址1.1.1.1对应MAC的ARP请求;
2.L3_SW收到PC A 的ARP请求后,检查请求报文,发现被请求IP是自己的三层接口IP,因此发送ARP应答并将自己的三层接口MAC(MAC S)包含在其中。同时它还会把PC A 的IP 地址与MAC地址对应起来(1.1.1.2<==>MAC A)关系记录到自己的ARP表项中去(因为ARP请求报文中包含了发送者的IP和MAC);
3.PC A得到网关(L3_SW)的ARP应答后,组装ICMP请求报文并发送,报文的目的MAC = MAC S 、源MAC = MAC A 、源IP=1.1.1.2、目的IP = 2.1.1.2;
4.L3_SW收到报文后,首先根据报文的源MAC+VID(即VLAN ID)更新MAC地址表。然后,根据报文的目的MAC+VID查找MAC地址表,发现匹配了自己三层接口MAC的表项。这里说明一下,三层交换机为VLAN配置三层接口IP后,会在交换芯片的MAC地址表中添加三层接口MAC+VID的表项,并且为表项的三层转发标志置位。当报文的目的MAC匹配这样的表项以后,说明需要作三层转发,于是继续查找交换芯片的三层表项;
5.芯片根据报文的目的IP去查找其三层表项,由于之前未建立任何表项,因此查找失败,于是将报文送到CPU去进行软件处理;
6.CPU根据报文的目的IP去查找其软件路由表,发现匹配了一个直连网段(PC B对应的网段),于是继续查找其软件ARP表,仍然查找失败。然后L3_SW会在目的网段对应的VLAN3的所有端口发送请求地址2.1.1.2对应MAC的ARP请求;
7.PC B收到L3_SW发送的ARP请求后,检查发现被请求IP是自己的IP,因此发送ARP应答并将自己的MAC(MAC B)包含在其中。同时,将L3_SW的IP与MAC的对应关系(2.1.1.1<==>MAC S)记录到自己的ARP表中去;
8.L3_SW收到PC B的ARP应答后,将其IP和MAC对应关系(2.1.1.2<==>MAC B)记录到自己的ARP表中去,并将PC A的ICMP请求报文发送给PC B,报文的目的MAC修改为PC B 的MAC(MAC B),源MAC修改为自己的MAC(MAC S)。同时,在交换芯片的三层表项中根据刚才得到的三层转发信息添加表项(内容包括IP、MAC、出口VLAN、出端口等),这样后续的PC A发送PC B的报文就可以通过该硬件三层表项直接转发了;
9.PC B收到L3_SW转发过来的ICMP请求报文以后,回应ICMP应答给PC A。ICMP应答报文的转发过程与前面类似,只是由于L3_SW在之前已经得到PC A的IP和MAC对应关系了,也同时在交换芯片中添加了相关的三层表项,因此这个报文直接由交换芯片硬件转发给PC A;
这样,后续的往返报文都经过查MAC表=>查三层转发表的过程由交换芯片直接进行硬件转发了。
从上述流程可以看书,三层交换正是充分利用了“一次路由(首包CPU转发并建立三层转发硬件表项)、多次交换(后续包芯片硬件转发)”的原理实现了转发性能与三层交换的完美统一。
 
下面介绍另一种组网情况的三层转发流程,如图3所示。
路由

如图3 三层转发组网2
图3中标明了两台主机的MAC、IP地址、网关,以及两台三层交换机的MAc、不同VLAN配置的三层接口IP。假设L3_SW1上配置了静态路由:ip route2.1.1.0 255.255.255.0 3.1.1.2;L3_SW2上配置了静态路由:ip route1.1.1.0 255.255.255.0 3.1.1.1。当然,路由信息也可以通过动态路由协议的交互来获得,有关路由的知识请查阅相关文档。
这种组网情况下的转发过程与图2的组网1情况是类似的,下面的流程讲解中降省略部分前面已经分析过的细节问题。当PCA向PCB发起ICMP请求时,流程如下:(假设三层交换机上还未建立任何硬件转发表项)
1.PC A首先检查出目的IP地址2.1.1.2(PC B)与自己不在同一个网段,因此它通过ARP解析得到网关地址1.1.1.1对应的MAC(MAC S1)。然后,PC A组装ICMP请求报文并发送,报文的目的MAC=MAC S1、源MAC=MAC A、源IP=1.1.1.2、目的IP=2.1.1.2;
2.L3_SW1收到报文后,首先根据报文的源MAC+VID更新MAC地址表。然后,根据报文的目的MAC+VID查找MAC地址表,发现匹配了自己三层接口MAC的表项,于是继续查找芯片的三层转发表;
3.由于之前未建立任何表项,因此三层转发表查找失败,于是将报文送到CPU去进行软件处理;
4.CPU根据报文的目的IP去查找其路由软件表,发现匹配路由2.1.1.0/24,其下一跳IP地址为3.1.1.2,于是继续查找3.1.1.2是否有对应的ARP,仍然查找失败。然后L3_SW1在下一跳地址3.1.1.2对应的VLAN4内发起ARP请求,并得到L3_SW2的回应,从而得到I和MAC对应关系(3.1.1.2<==>MAC S2);
5.L3_SW1将Pc A发出的ICMP请求报文转发给L3_Sw2,报文的目的MAC修改为L3_SW2的MAC(MAC S2),源MAc修改为自己的MAC(MAC S1)。同时,将刚刚用到的转发信息添加到交换芯片的三成转发表中去,包括匹配的网段2.1.1.0/24、下一跳地址的MAC(MAC S2)、出口VLAN、出端口。这样,后续发往2.1.1.2的报文就可以直接通过交换芯片硬件转发了;
6.L3_SW2收到报文后,与组网1中的处理类似,经过查MAC表=>查三层转发表=>送CPU=>匹配直连路由=>ARP解析=>转发报文同时添加硬件表项的过程,将报文转发给PC B,此时报文的目的MAC修改为PC B的MAC(MAC B),源MAC修改为L3_SW2的MAC(MAC S2)。这样后续发往2.1.1.2的报文就直接由交换芯片硬件转发了;
7.PC B收到来自PC A的ICMP请求报文后进行ICMP应答。由于在ICMP请求报文转发的过程中,每个网段的两端节点都已经通过ARP解析得到了对方的IP和MAC对应关系,因此应答报文的转发完全由交换芯片完成(查MAC表=>查三层转发表=>发送);
这样,后续的往返报文都经过查MAC表=>查三层转发表的过程由交换芯片直接进行硬件转发了。
从上述两种组网情况下的转发流程可以看出,三层交换机的转发具有以下特点:
1.首包通过CPU转发,同时建立交换芯片硬件表项;后续包由交换芯片直接硬件转发,即常说的“一次路由、多次交换”;
2.交换芯片的硬件转发并不关心路由的具体下一跳IP地址是多少,硬件三层表项中只包含了目的地址(或网段)、目的IP(或下一跳IP)对应的MAC、出口VLAN、出端口;(这里说明一下,并不是所有的三层交换机的硬件三层表项都会包含“出端口”的。)
3.IP报文每经过一次三层转发,它的源、目的MAC都会变化,但是源IP、目的IP是始终不变。
 
在三层交换转发中,交换芯片(ASIC)起到了至关重要的作用,因此三层交换机的性能和转发特点主要取决于交换芯片的实现机制。在三层交换原理一节中讲解的三层交换原理只是一个大致的转发流程,对于使用了不同交换芯片的三层交换机,其硬件转发过程中的一些细节内容是有所区别的。本节主要就硬件三层表项的结构和查表方式介绍几种不同的实现。
 
从前面的描述可以看出,三层转发是必然需要路由信息的,而转发过程中的路由选择决定了报文的最终出口如何,三层交换机只是将这种路由功能整合到交换芯片中去了。路由选择存在精确匹配和最长匹配两种方式,精确匹配即目的IP地址与路由的地址信息必须完全吻合,而最长匹配则是选择所有包含了目的地址的路由中掩码最长的一条。
早期的三层交换机上,其交换芯片多采用精确匹配的方式,它们的硬件三层表项中只包含其目的IP地址,并不带掩码信息。比如在转发目的IP为2.1.1.2的报文时,通过软件查找匹配了非直路由2.1.1.0/24,那么就将2.1.1.2的转发信息添加到交换芯片中去,如果继续来了目的IP为2.1.1.3的报文需要转发,则需要重新进行软件查找,并在交换芯片中为2.1.1.3增加新的表项。这样的选录方式表项结构对交换芯片的硬件资源要求很高,因为芯片中集成的表项存储空间是有限的,如果要发大量目的IP地址不同的报文那么就需要添加大量的硬件表项。曾经泛滥一时的冲击波病毒,就导致了当时大量的只支持精确匹配的三层交换机资源耗尽。因为冲击波病毒的手段之一就是发送巨数量的网段扫描报文,而多数三层交换机上都配置了缺省路由,这样所有的报文在CPU软件查找都能够找到匹配路由,进而针对每一个病毒报文的目的IP都需要新增硬件表项并迅速将硬件资源满。这样,大部分用户的正常数据流由于转发资源耗尽而得不到高速处理了。
由于精确匹配方式的三层交换机的这种缺陷,后期的三层交换机增加了对最长匹配方式的支持,即硬件三层表项中可同时包含IP地址和掩码,在查找时遵循最长匹配原则。这种类型的三层交换机,一般在软件路由表建立时就将路由信息添加到硬件三层表中去,包括直连路由和非直连路由。对于直连路由,对应的硬件三层表项的“to CPU”标志位始终置1,报文的目的IP匹配这样的表项被送往CPU处理,CPU软件会在直连网段发送ARP请求,并将获取的ARP信息作为主机路由添加到硬件表项中(对应的“to CPU”标志位置0),这样后续的同样目的IP的报文就直接通过新添加的硬件表项转发了;对于非直连路由,当下一跳地址对应ARP信息还未获得时,对应的硬件三层表项的“to CPU”标志位置1,报文的目的IP匹配这样的表项以后被送往CPU处理,CPU软件会在下一跳地址对应的直连网段发送ARP请求,并使用获取的ARP信息中的下一跳MAC、出口VLAN等信息更新对应的硬件三层表项,然后将其“to CPU”标志位置0,这样后续的目的IP匹配该非直连路由的报文就能够直接通过修改后的硬件表项转发了。
目前,大多数的三层交换机均能够同时支持精确匹配表项和最长匹配表项,一般来说精确匹配表项对应于软件中的ARP表,最长匹配表项对应于软件中的直连路由和非直连路由。
在交换机三层转发流程中,曾经提到,硬件三层表项由目的IP(或网段)、目的IP(或下一跳IP)对应MAC、出口VLAN、出端口组成,采用这样表项的三层交换芯片一般直接通过查找三层转发表项就能够完成转发。这种处理机制流程简单、转发效率高,但是也使得CPU软件对硬件表项的配置控制比较复杂,因为每当IP地址对应的MAC和物理端口出现变化,就必须对三层转发表项进行更新。而在交换机上二层信息变化的可能性是比较大的,特别是交换机支持链路聚合、生成树等冗余机制,所以在某些应用环境中CPU不得不经常的对三层转发表进行更新,一旦更新出现问题(特别是出端口错误)必然对转发造成严重的不利影响。
不过,并不是所有的三层交换机的硬件三层表项都带有出端口信息,部分交换芯片使用的硬件表项只包括目的IP(或网段)、目的IP(或下一跳IP)对应的MAC、出口VLAN,从转发流程上来说有以下变化:根据报文的目的IP查找三层转发表后,只得到了目的IP(或下一跳IP)对应的MAC和出口VLAN;然后继续根据MAC+VID去查找MAC地址表,并最终获得出端口信息,如果查找MAC表失败的话会在出口VLAN进行广播。这样的处理机制虽然增加了芯片处理复杂度,但是流程更加清晰合理,CPU的处理更加简单,因为物理出口的变化只需要反映在MAC地址表中就可以了,硬件三层表项无需频繁更新。

这两种处理方式的交换芯片各有优势,不同厂商会根据成本、可靠性、产品定位等各方面因素来进行选择,这也使得不同型号的三层交换机在同一应用环境中可能有不同的表现。