百分百发挥AI算力,华为发出最关键的一击
进入2019年,人们已经不再怀疑AI人工智能的重要性。Granter在2018年发布的预测认为,2022年人工智能驱动的商业价值将高达3.9万亿美元。此外,Gartner还认为2018年是人工智能技术爆发的一年,其增长曲线非常陡峭,到2020年之后的增长曲线将趋于平坦。这也就是说,2019年将是人工智能发挥作用的关键之年。

人工智能在企业中的落地,主要是基于企业的数据中心;而在计算、存储与网络这数据中心的三大难关中,网络是最后也是最难的难关。因为不论是计算还是存储,都主要通过X86服务器及软件的方式实现,业界已经在这两个领域取得了阶段性进展。但网络作为CT技术,并不是很多IT企业的长项,而网络的性能又严重制约着人工智能算力的发挥。

2019年1月9日,华为发布了业界首款面向AI时代的数据中心交换机CloudEngine 16800。华为网络产品线总裁胡克文表示:“万物互联的智能世界正加速到来,数据中心正成为5G、人工智能等新型基础设施的核心。华为率先将AI技术引入数据中心交换机,引领数据中心网络从云时代迈入AI时代。”

网络性能制约AI算力

为什么说网络性能制约着AI算力的百分之百发挥?这是因为网络是所有企业IT和数据中心的基础,而到了云与人工智能时代的软件定义网络基础架构时代,网络将起到更加关键性的作用。在Gartner的2019十大基础设施和运营的趋势预测中,也专门提到了网络的重要性。Gartner强调2019年及以后必须关注如何让网络更快,人工智能、边缘计算、5G等新业务都需要网络的敏捷性,而2019年将是打造网络敏捷性的关键一年。

胡克文在谈到AI受到数据中心网络的影响时,认为有三大挑战:丢包率、带宽以及故障定位。首先是丢包率,传统的以太网丢包率为0.1%,这意味着算力只能发挥50%,这是华为通过实际测试发现的问题。也就是说为了百分百发挥AI算力,AI时代的数据中心网络应该达到零丢包。

其次是大带宽,因为即使做到零丢包但网络带宽也在制约AI算力的发挥。未来的五年将出现数字洪流,而随着互联网流量的增长,将导致AI数据的集中以及更大规模的数据中心。这就要求更高的带宽,特别是服务器与服务器间的互访将更频繁。而数据中心服务器支持的带宽也已经从10G到25G再到100G,以超乎想象的速度发展,但即便是100G的数据中心网络也将无法支撑即将到来的数字洪流挑战。

第三是今天的数据中心中,计算网络、存储网络和数据网络已经三网合一了,这带来了极大的运维挑战。当遇到故障时,可能数据中心的技术人员花几天几夜都无法定位问题源。而当业务部门发现问题后,再找到网络技术人员时,留给网络技术人员解决问题的时间已经所剩无几。如果还要花费几天时间才能解决问题,那么网管的运维压力之大可想而知。

上述三个问题,是面向AI时代的数据中心网络核心挑战。胡克文表示,他过去一年见过很多客户,普遍的反馈是大家过去三年的关注都在云上,而当云的建设初具规模后却突然发现搞不定网络,特别是面对AI等新兴计算任务。“这个时候,我们在想未来的数据中心网络应该是什么样?”

数据中心网络迈入AI时代

华为发布的AI数据中心交换机CloudEngine 16800作为华为AI发展战略以及全栈全场景AI解决方案的一个重要组成部分,是业界首款内嵌AI芯片的数据中心交换机,支持高密400G接口、满足AI时代5倍的流量增长,还将支撑秒级故障识别和分钟级故障自动定位、使能自动驾驶网络。

首先是内嵌AI芯片。高性能数据中心集群对网络丢包异常敏感,华为CloudEngine 16800搭载了高能效AI芯片,通过实时学习训练能力和独创的iLossless智能无损交换算法,为以太网实现了无丢包机制以及流量模型的自适应自优化,从而构建一个零丢包、低时延的数据中心网络,让AI算力充分发挥,加速人工智能应用创新。

近两年,深度学习算法取得重大突破,数据处理效率随后就成为了人工智能规模商用的新瓶颈。为了不断提升AI的运行效率,业界已经把存储介质推进到了闪存盘且大幅降低了时延,并通过GPU甚至专用的AI芯片则将处理数据的能力提升了100倍以上。为了进一步降低网络传输中服务器端数据处理的时延,数据中心的网络协议由TCP/IP推进到了RDMA远程直接数据存取,也就是网络层和传输层处理都由服务器上的网卡硬件实现,而无须像TCP/IP协议那样占用CPU的处理资源。那么,当这些都解决了之后,网络通信时延就将成为短板。

在数据中心里,TCP/IP是唯一的通信协议,但当TCP/IP网络遇到RDMA网卡,就需要在转发设备本地引入智能处理,实现零丢包、低时延、高吞吐的无损数据中心网络。华为主要采取了单流局部调优和整网全局调优两种方式,用内嵌AI芯片的华为数据中心交换机对网络状态实时检测。基于AI芯片的iLossless智能无损交换算法,可对全网流量进行实时的学习训练,并根据不同业务流量模型的特点动态设置最优的网络参数、更精准地控制流量,实现百万流和基于应用的队列自适应不同场景的全局网络自优化能力,保证数据中心网络在传输无丢包基础上达到最高的吞吐量。

第二是业界最高密度单槽位48 x 400GE。华为CloudEngine 16800,支持从10G到40G到100G再到400G端口的平滑演进,能够提供业界最高密度的单槽48个或整机768个400GE端口,交换容量是业界的五倍,可以极大的减少核心层设备的数量,简化网络的同时提升管理效率。众所周知,400GE接口标准化工作于2015年启动,目前针对数据中心应用已经完成标准化,400G时代已经来临。

为了支持超高密度及其演进,华为CloudEngine 16800在PCB板材、工艺、散热,供电等多方面都进行了重大技术改进和创新。在PCB板材工艺方面,华为采用新型亚微米无损材料及高分子键合技术的制作工艺,将PCB板的电信号传输效率提升30%,满足100G到400G甚至未来800G的兼容和能力演进。而在供电方面,华为提出业界首个双路输入智能切换的电源模块,采用磁吹灭弧和大励磁技术实现ms级快速切换,21个电源模块就可以实现原来40个模块所达到的供电能力和可靠性,电源空间节省50%;线路板上采用矩阵磁和高频磁技术,可在两个拇指大小的空间内提供1600W供电能力,使得单位空间的供电效率提升90%。

在散热方面,华为CloudEngine 16800提供单板级和系统级散热。其中,CloudEngine 16800采用独有的碳纳米导热垫和VC相变散热技术,单板散热效率较业界提升4倍,整机可靠性提升20%。此外,华为采用了业界首创的混流风扇,可以使得整机散热效率达到最佳,平均每bit数据的功耗降低50%,相当于每台每年节省32万度电、约合26万元电费,减少碳排放250余吨;加上独有的磁导率马达,静音导流环噪音降低6dB,真正做到绿色节能。

第三是网络的智能运维和自动驾驶。华为CloudEngine 16800基于内置的AI芯片,可大幅度提升“网络边缘”即设备级的智能化水平,使得交换机具备本地推理和实时快速决策的能力。通过FabricInsight网络分析器提供分布式AI运维架构,可实现秒级故障识别和分钟级故障自动定位,加速自动驾驶网络的到来。而基于分布式的AI运维架构,也可大幅提升网络运维系统的灵活性和可部署性。

华为自2012年进入数据中心网络市场以来,已服务于全球6400+个用户,帮助全球各地的互联网、金融、政府、制造、能源、大企业等多个行业的客户实现了数字化转型。2018年,华为轮值董事长徐直军宣布,华为将人工智能定位为新的通用技术并发布了人工智能发展战略,全面将人工智能技术引入到智能终端、云和网络等各个领域。CloudEngine 16800就是华为普惠AI战略的进一步发展,也是华为在数据中心网络市场的最新成果。

2017年7月,华为进入了Gartner数据中心网络魔力象限的挑战者象限,华为CloudFabric云数据中心网络解决方案已成为全球企业构建云数据中心网络的首选方案之一。华为CloudFabric解决方案提供基于标准API的接口,可与第三方云平台、控制器、VAS设备、自动化管理工具等协同工作,联合VMware 、Red Hat、Mirantis、EasyStack、F5、Ansible等20多家合作伙伴共同构建多层次SDN生态链,提供成熟的集成部署能力。

随着CloudEngine 16800的推出再加上CloudFabric解决方案,华为可帮助企业构建更为智能的网络、自主响应应用的策略以及网络的自我优化,特别是把AI广泛应用于数据中心网络的规划、部署、运维到调优等各环节,实现网络管理和运维的自动化和智能化,打造应用驱动的数据中心网络,实现网络敏捷性。2019年,CloudEngine 16800将重新定义数据中心网络的代际切换,帮助企业使能和加速AI商用进程,引领数据中心进入AI时代。(文/宁川)