本文作者宗志刚(花名瑄珉),网络领域从业十五余年,现任阿里云网络产品线资深技术专家,负责阿里云网络洛神平台的技术规划、架构设计以及网元产品研发工作。在刚刚过去的云栖大会上,宗志刚做了“洛神3.0:应用-云-边-端一体的新一代云网络平台”的主题分享,详细阐释了阿里云新一代洛神云网络平台的技术架构升级。本文根据作者的演讲内容整理而成。

云网络发展历程

云平台技术功能 云平台的技术路线_云原生

云网络1.0时代,主要实现数据中心云化后的多租户隔离的网络,它的技术特点就是在云上Region内实现了大规模的overlay网络。

随着企业上云的步伐加快,越来越多的企业上云,特别是大型、超大型企业上云,因为全球服务的要求,云网络不仅要支持数据中心内部的网络,还要支持多个数据中心的全球互联,同时云上/云间的流量激增,企业的业务也丰富多样。

这个阶段的网络,我们称为云网络2.0时代。在技术上,支持跨域网络的虚拟化,同时为了提供性能更高、灵活性更好的网络,软硬件一体化、云原生方式的弹性架构,开始规模化应用在云网络中。

从2020年开始,云网络产品和技术逐步走向边缘和应用,支撑5G/IoT应用的上云,我们定义为云网络3.0时代。

洛神:飞天云操作系统的内核组件

阿里云网络产品技术平台叫洛神,它是阿里云飞天操作系统的内核组件之一,负责网络的虚拟化,与计算虚拟化平台神龙、存储虚拟化平台盘古以及物理资源管理平台天基共同组成了飞天的内核基础,并向上支撑构建了阿里云丰富的IaaS、PaaS产品。

云平台技术功能 云平台的技术路线_云平台技术功能_02

洛神平台总体架构:SDN+NFV
洛神·云网络平台的总体技术架构,是一个非常典型的SDN+NFV架构,最底部是物理网络基础设备,提供网络最基础的连通能力;

向上是转发面,洛神平台使用多种类型的资源来进行数据面的转发,例如传统的x86裸金属服务器,国产化ARM CPU,还有目前已经规模应用的可编程芯片;

在转发数据面之上,构建了一个NFV平台,叫CyberStar平台,用于管理底层不同的转发资源,提供统一抽象的能力,例如弹性资源扩缩容能力,资源异构屏蔽能力等,提升上层业务网元的研发效率;在此之上,是业务网元自身的转发逻辑。

在控制面,洛神平台使用集中式的SDN控制器,实现各网元的业务编排。另外,为了保障整个网络的高效运维和运营,洛神平台还构建了一个智能运维分析平台,内部叫做齐天平台,依靠大数据驱动,实现网络的智能运维和运营。

云平台技术功能 云平台的技术路线_阿里云_03

当前在网运行的阿里云网络规模部署的是洛神2.0平台,简单来说,它是一个三位一体网络:

首先,云网一体:主要是阿里云网络资源的覆盖已经全球化,目前已经有24个Region,75个可用区,280+个POP接入节点;

其次,软硬一体:主要体现在数据面,使用FPGA以及可编程芯片方式,极大提升了数据面转发性能,其中VPC网关单台可达到3.2T,不仅满足超大类型客户的转发性能需求,还可以提升大象流的吞吐,提升网络的可靠性;

最后,伸缩一体:阿里云网络的应用网元,基于洛神CyberStar NFV平台,可以实现阿里云网元任意规格分钟级的弹性。

洛神3.0,构筑应用-云-边-端一体的智能云网络

从2020年开始,我们启动洛神3.0的研发,其关键的场景是应用-云-边-端一体化的智能化网络。网络最核心的价值是连接——连接应用,连接端,连接不同地域不同类型的网络;应用-云-边-端一体的连接场景,我们总结成三种主要连接方式:

广泛的连接:从过去的云网络以云为中心,走向连接更加广阔的区域,连接边缘,连接IoT端,把中心云和本地云、边缘云结合起来。

深入的连接:这是网络在纵向的连接,要满足应用不同场景(包括应用与应用之间)的连接,特别是生态服务部署到云上之后的连接。

极简的连接:网络是一个分布式系统,本身是极端复杂的,但是应用以及IT运维人员希望看到一个简单的网络。

云平台技术功能 云平台的技术路线_云平台技术功能_04

应用-云-边-端一体化的场景,对云网络的技术提出了更高的要求,总结下来,包括如下几个方面:

更高性能的网络管理能力:因为网络的边界大大扩宽,网络的节点海量增加,链路的环境也发生了很大的变化,但体验要求没有降低,所以对网络的管理能力提出了更高的要求。

**更灵活的网络转发设备:**因为地域不一样,特别是边缘场景,环境差异巨大,如何适应不同场景转发需求,需要网络转发设备更加灵活。

**更简易的网络互联协议:**网络互联要简单,应用关心的是业务逻辑,在云上应用与其它应用或者端连接时,如果太复杂,是无法规模化应用的。

**更智能的网络维护技术:**网络的边界在扩大,与应用的连接更加紧密,覆盖面更广;网络的维护工作量和复杂度急剧增加,网络的维护压力也大大增加,需要使用更加智能的网络维护技术,减少网络的运维&运营投入。

针对云网络3.0时代的应用场景对技术的要求,洛神3.0开启了相关技术的研发,也取得了一些阶段性成果:

云边端一体,极致性能的网络控制器

云边端一体,中心云延伸到边缘,包括客户的IDC;为了提升体验以及统一运维,需要VPC从中心延伸到边缘,而不是独立的数据中心,这就要求网络的管控系统依然是统一的,但是管理系统管理的网络范围和实例数会大大增加,管理链路的环境也会增加很多复杂度,在此种环境下,洛神平台的管控系统进行了开发,其中最重要的变化是我们统一的各种网关的南向,采用新的内存数据库抽象网关不同对象之间的关系,做到联动下发,批量下发,来提升管控的处理性能,支持例如单VPC千万实例,亿级配置,每秒千条路由刷新的能力。

云平台技术功能 云平台的技术路线_云平台技术功能_05

云边端一体,多功能融合的网关设备

在数据面,边缘的场景非常多样化,因此造成了一定的复杂度,但有一个共性,就是空间有限,对成本敏感,但功能特性一个都不能少,流量模型还具有多样性。在这个点上,洛神云网络平台对VPC网关设备做了融合处理,这里的融合不仅是简单的部署在一台物理设备中,底层的转发资源也做了池化,以便及时应对不同资源模型,同时也要保证架构上的解耦,与中心云的网关架构保持一致。

云平台技术功能 云平台的技术路线_网络平台_06

面向应用生态的连接技术

上面主要是网络连接广度方面的一些技术,在纵向深度上,简化应用的连接,我们提升了阿里云洛神CyberStar平台的能力,将服务链的能力集成到平台中,这样基于CyberStar平台的网元之间可以非常简单地实现连接,例如最近在公测的NAT FW产品,用户不需要配置任何路由,只需要勾选集成的产品选项,就可以实现NAT和FW之间的自动引流,大大简化了应用的连接复杂度。

云平台技术功能 云平台的技术路线_阿里云_07

大数据驱动的智能运维分析
最后,网络连接得更广、更深,网络的边界在扩大,网络运维运营的复杂度也会大大提升,网络的控制面是针对单网元的,是一个垂直化的部件,但是网络是一张网,需要全局视角,例如某个网元转发流量下跌,到底是自身问题还是底层vswitch问题,还是EIP问题;例如版本发布变更,业务是否全部恢复,都需要全局视角。

针对这些场景,洛神平台升级了齐天大数据智能分析系统,齐天系统已经开发并稳定运行了数年,之前更多是内部使用,保证整个洛神云网络的平稳运行,为我们对外提供的云网络产品和服务保驾护航;洛神3.0开始,我们也推出了产品化服务——NIS网络智能服务,采用与齐天大数据系统相同的架构。

云平台技术功能 云平台的技术路线_复杂度_08

齐天大数据分析平台

云平台技术功能 云平台的技术路线_复杂度_09

这是齐天大数据平台的总体架构,相关监控数据会采集到数据中台层,进行数据格式的标准化,统一数据访问接口,最终由云网络智能算法平台使用相关的算法模型对这些数据进行清洗、分析,得到关于异常的检测、关联、根因的定位以及网络优化信息,并通过API传输给网络运维工程师和云上的用户。

总结

阿里云网络洛神平台正走向云网络3.0时代,开启面向应用-云-边-端一体化的技术升级和探索。对于网络的横向延伸,会拓展网络的边界,云-边-端在网络侧融合。网络的纵向延伸,更加紧密集合应用和生态,同时采用智能化的方法,加速网络智能化的管理,并将智能的能力输送给云上用户,让网络更简单。

云平台技术功能 云平台的技术路线_云原生_10