如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正成为推动人类进入智能时代的决定性力量。

一个产业的发展,通常要依次经历make it work、make it perform、make it cheap这三个阶段。

随着大数据、云计算、互联网、物联网等信息技术的发展,人工智能技术大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等实现了make it work到make it perform的技术突破,迎来了爆发式增长的新高潮,人工智能正以不可逆转的迅猛之势进入到我们的生活之中。

然而,伴随着人工智能技术越来越自然地渗透到各个产业,它背后对算力的消耗也十分惊人——在make it perform阶段,“准确度”成了人工智能技术的重要挑战之一,为了不断提升准确性,人工算法模型的复杂性和精度越来越高、叠加数据量的几何倍数级增长,便产生了越来越高的算力需求。

也是在这个阶段,算力开始大规模集中,并向行业聚拢。满足算力需求大多靠堆芯片量的方式解决,随之而来的是看似永无止境的算力成本、烟囱式架构及资源孤岛、和居高不下的能耗排放。2019年,马萨诸塞大学阿默斯特分校 (University of Massachusetts Amherst) 的研究人员分析了几种自然语言处理(NLP)模型训练所需的能耗(以千瓦为单位)。将这种能源消耗换算成近似的碳排放和电力成本之后,作者估计,训练一个单一的大型语言模型的footprint约等于300,000kg二氧化碳排放量——相当于在纽约和北京之间往返飞行125次。(引自《The carbon impact of artificial intelligence》,Nature Machine Intelligence volume 2, pages423–425,2020)

2022年,AIGC这类新技术给行业带来了机遇,但入局AIGC赛道并不简单,它的背后是对企业算力资源的考验。如何用有限的资金,以多元化的方式获得更多的算力资源、并做到最大化产出成为了当前企业都要面对的挑战——这是大模型大规模商业化的自然需要,也是行业即将进入make it cheap这个阶段的大势所趋。

根据AWS公布的一项数据显示,企业GPU利用率大约在10%—30%;而国内的GPU利用率大多低于15%,损失严重——造成巨大浪费的原因是用户对GPU的使用和管理粗放。凭借创始团队在GPU虚拟化及池化领域研究多年的技术积累,趋动科技创新性地提出了通过软件定义算力的GPU池化技术,能够通过软件的方式协助让用户合理地使用、管理、分配算力,提高算力的利用率,达到算力完全重复利用的效果。趋动科技的核心产品OrionX AI算力资源池化软件可以每年提升50% AI算法工程师人效、提升AI资源利用率3-8倍以及让客户总体拥有成本下降80%。据某互联网行业客户测算,在OrionX灵活的资源配比及调度策略下,完成同样任务只需原来五分之一的GPU卡数,即存量卡可以支撑当前5倍的业务需求,大大降低业务获取及运维算力的成本!

资源池化是云计算的核心支撑技术之一,其中心思想是通过软件的方法,将各种硬件(CPU内存、磁盘、网络等)变成可以动态管理的“资源池”从而简化资源管理,实现资源整合,提升资源的利用率。GPU池化也遵循这样的理念,对物理 GPU 进行抽象,软件化后形成一个统一的资源池,方便用户按需对 GPU 资源进行有效调用,无需关注实际物理 GPU 的大小、数量、型号以及安插的物理位置。(引自GPU池化术语,中国计算机学会通讯,第18卷,第八期,pages90-91,2022)

那么通过池化后的算力资源池会具备哪些能力呢?接下来让我们结合具体的场景来逐一了解:

1 算力资源的动态调用和释放。

在AI开发测试场景中,用户通常以独占形式分配算力资源,但又不是时刻使用,因此导致高占用率、低利用率的现状。通过对GPU卡资源进行池化,用户可按需动态对算力资源进行挂载和释放,提升资源利用率3-8倍。

2 昼夜资源复用。

某些在线推理业务,在时间维度有着非常显著的时间分布特性,与之相对应的是对GPU算力的占用也呈现出强烈的波峰波谷效应。GPU池化技术可以打破GPU卡独占造成的资源孤岛,按需动态调整昼夜开发和训练的资源比例,并配合任务优先级设置,综合提升运营效率4倍以上。当在线业务有请求到来时,系统会优先保障高优先级的在线业务所需的算力资源,离线业务应用此时暂时挂起,等待在线业务处理完成后再继续执行。

GPU池化makes AI cheaper_人工智能

3 CPU和GPU资源合理配比。

某些类型的训练任务(如大IO/仿真),CPU占满后,GPU使用效率很低,往往只能使用多卡中的1到几块。GPU池化技术可将CPU与GPU解耦,将任务部署到多个远程CPU服务器上,通过高性能网络调用远端未被使用的GPU卡,实现卡资源充分利用。


GPU池化makes AI cheaper_AI_02


4 多任务叠加。

为了避免业务争抢和干扰,用户大多将不同推理模型运行在独立的GPU卡上,因此产生资源浪费。通过GPU池化,不同AI业务推理模型可运行在刚好规格的虚拟GPU上,实现GPU利用率的整体提升。


GPU池化makes AI cheaper_异构_03

5 显存扩容。

基于硬件,通常不能摆脱显存的限制,单张物理GPU运行的任务有限。通过GPU池化创新的显存扩容能力,单GPU可支持多服务,实现多任务叠加。硬件不增加的情况下,系统吞吐量提升80%,并能大大提升弹性拓展能力。

GPU池化makes AI cheaper_AI_04

6 降本增效,节能减排。

由于利用率提升,使用相同数量的GPU卡能支持更多业务,或者在业务量不变的情况下使用更少的GPU卡,能帮助用户降低单位能耗。可以看到,GPU池化技术在实现碳达峰、碳中和的过程中扮演着重要角色。

GPU池化makes AI cheaper_人工智能_05

7 兼容异构算力。

OrionX支持异构算力的统一纳管,尤其是国产算力。通过这个能力,OrionX协助国产芯片建立软件生态,用户也可实现更加灵活和高效地管理和分配资源,从而满足不同用户的使用场景和需要。当用户需要扩展资源池的规模时,也可以更轻松灵活地通过添加新节点来实现。

GPU池化makes AI cheaper_AI_06

凭借标准化、可复制的产品架构,趋动科技得到了包括金融、电信运营商、自动驾驶、智能制造、能源、互联网、科研机构和高校等大量行业头部客户的认可。中国光大银行AI中台已在全栈云异构算力平台上成功投产,并在一年多的建设与推广过程中取得显著成效:一是通过GPU资源池化,AI业务运行效率显著提高,整体GPU资源利用率大幅提升,同时结合任意切分和按需分配机制,在同等GPU数量的前提下,实现了数倍业务量的弹性扩展。二是基于自助申请、动态分配设计,支持不同业务实现资源共享,有效避免算力孤岛,大幅提高算力资源利用率,有效降低了硬件采购成本。三是通过构建高效、灵活、弹性的异构算力资源池,支持用较少的芯片(耗能)来支持更多的AI业务,助力实现碳达峰、碳中和目标。

从更高的层面来看,2022年国家全面启动“东数西算”政策,目的是优化资源配置、提升资源使用效率、形成一体化的算力网络体系。中国信通院云计算与大数据研究所所长何宝宏表示,算力资源、网络资源统一调度主要通过“算网融合”实现。算力池化可在这张巨大的网络中发挥作用,提升节点服务能力、推动国产芯片自用。

数字经济时代,算力无处不在。趋动科技将通过GPU池化技术,让用户获取算力的成本及难度降低,助推人工智能产业飞轮,make AI cheaper。