NVMe Over Fabrics使用RDMA或光纤通道(FC)架构等Fabric技术取代PCIe传输。如图所示,除了基于RDMA架构的传输包括以太网(ROCE),InfiniBand和iWARP,当然,采用基于原生TCP(非RDMA)传输也是可能的(截至2018年7月,TCP技术仍在研发阶段)。
图RDMA和FC Fabric NVMe架构
图中所示的NVM子系统是一个或多个物理结构接口(端口)的集合,每个单独的控制器通常连接到单个端口。多个控制器可以共享一个端口。尽管允许NVM子系统的端口支持不同的NVMe传输,但实际上,单个端口可能仅支持单个传输类型。
注意:NVM子系统包括一个或多个控制器,一个或多个命名空间,一个或多个PCI Express端口,非易失性存储器存储介质,以及控制器和非易失性存储器存储介质之间的接口。
下图是一个存储阵列的示例,该阵列是由通过FC结构连接到3个主机的NVM子系统组成。
图:由通过Fabric连接到3个主机的NVM子系统组成的示例阵列
通常,NVM子系统呈现一个或多个NVMe控制器(最大约64K)的集合,其用于通过一个或多个(最多64K)NVM子系统端口访问与一个或多个主机相关联的命名空间。实际上,子系统控制器的数量或子系统端口的数量往往非常小。
NVMe Over Fabrics(NVMe-oF)也是基于NVMe架构,包括命令集和排队接口。除Admin和I/O命令外,它也支持Fabric命令。NVMe-oF在某些方面与基本NVMe规范有所不同(例如,不允许中断),因为NVMe中的Interrupt的说法,仅仅限于NVMe over PCIe的架构,在NVMe over Fabric的架构下,不存在任何Interrupt的说法。
注意:有关NVMeover Fabrics与NVMe基本规范之间差异的完整列表,请参阅NVMe Over Fabric 1.0规范
控制器一次只与一个主机关联,而端口可以共享。NVMe允许主机通过相同的端口或不同的端口连接到NVM子系统中的多个控制器。
NVMe-oF支持发现服务,使用发现机制,主机可以获得具有主机可访问的名称空间的NVM子系统的列表,包括发现到NVM子系统的多个路径的能力。NVMe Identify Admin命令用于确定控制器的命名空间。
如前所述,NVMe规范支持多路径I/O和命名空间共享。虽然多路径I / O,命名空间共享,多主机连接和预留等概念并不相同,但为了方便将它们一起描述,它们在涉及多主机命名空间访问,尤其是在使用NVMe预订(Reservations)时有些相互关联。以下提供了这些概念的简要说明。
命名空间共享
命名空间共享是指两个或多个主机使用不同的NVMe控制器访问公共命名空间的能力。命名空间共享要求NVM子系统包含两个或更多控制器。
下图显示了两个NVMe控制器通过两个NVM子系统端口连接的示例; 在此示例中,命名空间B(NS B)由两个控制器共享。NVMe操作可用于协调对共享命名空间的访问。与共享命名空间相关联的控制器可以同时在命名空间上操作。可以使用全局唯一标识符或与命名空间本身关联的命名空间ID(NSID)来确定何时存在到同一共享命名空间的多个路径。
NVM子系统不需要将相同的命名空间附加到所有控制器。在图中,只有命名空间B被共享并连接到控制器。
注:当前的NVMe规范未指定跨NVM子系统的命名空间共享,这在NVMe 1.4规范草案中得到了解决。
图:具有对共享命名空间的专用端口访问的示例
多路径
NVMe多路径I/O是指单个主机和命名空间之间的两个或多个完全独立的路径。每个路径使用自己的控制器,尽管多个控制器可以共享子系统端口。命名空间共享等多路径I/O要求NVM子系统包含两个或更多控制器。
在下图所示的示例中,主机A通过控制器1和控制器2具有2个路径。NVMe标准技术委员会目前正在制定关于多路径I/O的规范草案。
多主机连接和预留
NVMe预留功能类似于SCSI-3持久保留,可用于提供两个或多个主机用于协调对共享命名空间的访问的功能。命名空间上的NVMe预留限制了主机对该命名空间的访问。例如,受驱动程序支持的VMware ESXi可以使用NVMe预订来支持使用VM的MicrosoftWindows Server故障转移群集。
NVMe预留需要主机和命名空间之间的关联。多路径I/O和命名空间共享环境中的每个控制器只与一个主机相关联,如下图中的示例所示。主机可以通过向与其关联的每个控制器注册相同的主机ID来与多个控制器相关联。
注意:为了唯一标识主机ID,控制器可以支持以下两种格式之一:
1)64位主机标识符
2)扩展的128位主机标识符; NVMeOver Fabrics需要128位扩展格式
如下图所示的示例中,主机A与2个控制器相关联,而主机B与单个控制器相关联。主机标识符(例如,主机ID A)允许NVM子系统识别与同一主机(例如,主机A)相关联的控制器,并保留跨这些控制器的预留属性。
图:对共享命名空间的多主机访问
提醒一下,NVMe-oF是一种通过可扩展的方式在主流互连上扩展NVMe架构的事实标准。该标准旨在使非易失性存储器快速基于消息的命令能够 通过网络在主计算机和目标固态存储设备或系统之间传输数据。主要的好处包括提高性能,减少网络延迟和瓶颈。
关于NVMe-oF/TCP
一个更有趣的新发展是NVMe和传输控制协议(TCP)的新传输绑定。对开发人员来说,好处是迁移NVMe技术到Internet小型计算机系统接口(iSCSI)。对于希望利用其以太网基础设施并避免远程直接内存访问(RDMA)协议的复杂性的企业而言,NVMe-oF/TCP是一个很好的选择。
NVMe-oF的传输无关性意味着NVMe-oF可以支持所有传输,目前有几种主流传输方式:RoCEv2,iWARP,InfiniBand和FCoE(以太网光纤通道/FC)。这里面有一些传输使用我们的规范中包含的RDMA协议实现绑定,但目前NVMe相关组织在正在添加TCP以满足市场需求。
业界对NVMe-oF /TCP标准持乐观态度, 许多行业领导者都支持它,包括Facebook,谷歌,戴尔EMC,英特尔和其他公司。
外部存储市场已经开始采用NVMe-oF技术,我们希望企业客户能够继续在高性能要求的应用中使用和部署它。目前已经看到顶级供应商,包括Broadcom,思科,英特尔,IBM等,并宣布推出NVMe-oF解决方案。
NVMe-oF的未来在企业存储领域是光明的,新兴的计算密集型市场需要NVMe-oF技术。
人工智能,机器学习和实时分析都需要NVMe-oF提供的更低延迟和更快的吞吐量。NVMe-oF技术具有许多优势,可以满足新的应用需求。在服务器端,NVMe-oF减少了操作系统存储堆栈的长度,从而可以更有效地进行连接。在存储阵列方面,由于通过目标堆栈的路径较短,从而改善阵列性能。
然而,最重要的好处之一是NVMe-oF利用存储阵列的原有技术,通过从SAS/SATA驱动器转移到NVMe SSD,加速解决方案上市。