满足实时人工智能的计算需求

Meeting the computational needs of real-time AI

随着实时服务浪潮日益成为日常生活的一部分,计算基础设施正在经历一场重大的转变。从使用自然语言提供即时信息的智能个人助理到通过店内分析生成客户购物行为信息的零售商,这些实时服务为服务提供商提供了巨大的市场机遇。             

为了从这些服务中获取价值,数据和见解需要立即访问,并将主要通过支持人工智能的服务来驱动。作为回应,亚马逊(Amazon)网络服务(AWS)、微软(Microsoft)、阿里巴巴(Alibaba)和SK电信(SK Telecom)等云计算巨头正在开发提供这些服务的计算基础设施。             

数据中心运营商现在必须优化计算以满足实时响应要求。因此,IT体系结构还必须处理变化的、快速发展的工作负载和算法,这些工作负载和算法主要由人工智能驱动,同时还必须不断地将计算集成到存储和网络中。             

就服务提供商而言,需要一个提供差异化和性能的基础设施平台,以提供吞吐量、低延迟和灵活的软硬件堆栈,可以处理从递归神经网络到长短期内存网络的各种算法,基于apachespark集群计算框架的卷积神经网络与查询加速。             

为了实现这种差异化,服务提供商正在构建自己的硬件和软件堆栈。例如,AWS高级查询加速器是一个具有定制软件和可编程硬件堆栈的数据分析平台。SK电信最近在一个定制的软件和可编程硬件堆栈上开发了支持AI的语音和视频分析。             

下一波计算需要自适应,软件和硬件融合,硬件和软件都可编程,以实现实时性能、最大吞吐量、低延迟和电源效率。随着实时解决方案的增长和人工智能的进步,日益复杂的工作负载和非结构化数据的爆炸式增长,数据中心正在发生转变,重点放在计算、存储和网络的自适应加速上。

Real-time predictions

实时预测             

学术研究人员正在利用高性能计算(HPC)作为解决世界上一些最复杂问题的途径。加速洞察和大规模部署HPC需要惊人的原始计算能力、能源效率和适应性。             

为了回答世界上最具挑战性的科学问题,欧洲粒子物理实验室(CERN)约20000名科学家组成的联合体正试图重建宇宙的起源。要做到这一点,研究人员必须突破技术的极限。             

大型强子对撞机是世界上最大的粒子加速器。这个27公里长的环是由超导磁体组成的,能将粒子加速到以前前所未有的能量水平。每个质子每秒穿越光环11000次,接近光速。在环上每25纳秒的四个不同点,质子碰撞。粒子探测器捕捉到碰撞的情况。             

这个触发器系统分两层实现——第一个触发器需要一个固定的、极低延迟的人工智能推理能力,每个事件大约3微秒。还需要大量的带宽。             

CPU和GPU不能满足这些要求。因此,在地下100米处,却被屏蔽在辐射区之外,是一个运行FPGA算法的网络,旨在瞬间过滤产生的数据,识别出新的粒子子结构,作为暗物质和其物理现象存在的证据。这些FPGA运行经典和卷积神经网络来接收和校准传感器数据,执行跟踪和聚类,运行机器学习对象识别和触发函数,所有这些都是在格式化和传输事件数据之前进行的。结果是100纳秒量级的极低延迟推断。

Storage for Real-Time Analysis

用于实时分析的存储             

高速存储的采用和对数据密集型应用程序性能要求的提高,造成了CPU、内存和存储瓶颈。因此,焦点正从计算马力转移到通过计算存储来处理数据。这对提高应用程序性能和整体基础设施效率具有重要意义。             

一个可行的解决方案是让计算更接近数据。将数据分析与存储集成可显著减少系统级数据瓶颈,提高并行性,同时降低总体电源需求。这种方法吸引了IBM和Micron Technology等供应商,开发了加速存储和计算存储产品,在数据附近进行处理。三星电子(Samsung Electronics)推出了SmartSSD,以实现更接近闪存的高性能加速计算,同时克服CPU和内存的限制。三星的SmartSSD通过将智能推送到数据所在地,提高了速度和效率,并降低了运营成本。

Complex Networking

复杂网络             

随着虚拟化计算和集装箱化工作负载的出现,网络变得更加复杂。由于这些环境的规模超出了单个服务器,必须采用复杂的覆盖网络。覆盖网络是使用包封装的概念动态创建和维护的虚拟化系统。监督这种封装会给操作系统或虚拟化内核增加负担。当与传统的网络任务相结合时,这些方法消耗了服务器30%的原始CPU周期。             

管理覆盖网络的一种常见方法是开放式交换机(OvS)协议。基于FPGA的SmartNICs(网络接口卡)具有计算能力,可以从上述30%的开销中卸载主机CPU。简单地说,使用智能网卡处理OV的三台服务器的计算能力相当于运行在标准NIC上的四台服务器。             

基于FPGA的SmartNICs还可以用于减轻通常在服务器CPU上执行的安全和加密任务。安全性以深度数据包检查的形式出现,如果数据包构成威胁,就会导致数据包丢失。这种方法可以扩充甚至取代企业现在在其服务器上运行的传统防火墙软件。此外,SmartNIC可以轻松地卸载各种加密和解密任务。

New world order

世界新秩序             

在实时服务的新时代,由于成本、功耗和CPU的扩展性,仅使用CPU或多核CPU满足需求是不现实的。对于许多工作负载,将更多基于CPU的服务器投入到问题上根本无法提供所需的性能。             

随着摩尔定律逐渐停滞不前,下一代cpu几乎没有什么希望。因此,适应性强的计算加速器是一个可行的解决方案,有望满足广泛的计算需求,同时可扩展以帮助管理运营成本。

人工智能芯片与自动驾驶