GPU池化makes AI cheaper

原创

趋动科技 2024-08-30 10:46:22 ©著作权

文章标签 池化人工智能异构 AI AI算力资源池化 文章分类 PyTorch 人工智能

©著作权归作者所有：来自51CTO博客作者趋动科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网，人工智能正成为推动人类进入智能时代的决定性力量。

一个产业的发展，通常要依次经历make it work、make it perform、make it cheap这三个阶段。

随着大数据、云计算、互联网、物联网等信息技术的发展，人工智能技术大幅跨越了科学与应用之间的“技术鸿沟”，诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等实现了make it work到make it perform的技术突破，迎来了爆发式增长的新高潮，人工智能正以不可逆转的迅猛之势进入到我们的生活之中。

然而，伴随着人工智能技术越来越自然地渗透到各个产业，它背后对算力的消耗也十分惊人——在make it perform阶段，“准确度”成了人工智能技术的重要挑战之一，为了不断提升准确性，人工算法模型的复杂性和精度越来越高、叠加数据量的几何倍数级增长，便产生了越来越高的算力需求。

也是在这个阶段，算力开始大规模集中，并向行业聚拢。满足算力需求大多靠堆芯片量的方式解决，随之而来的是看似永无止境的算力成本、烟囱式架构及资源孤岛、和居高不下的能耗排放。2019年，马萨诸塞大学阿默斯特分校 (University of Massachusetts Amherst) 的研究人员分析了几种自然语言处理(NLP)模型训练所需的能耗(以千瓦为单位)。将这种能源消耗换算成近似的碳排放和电力成本之后，作者估计，训练一个单一的大型语言模型的footprint约等于300,000kg二氧化碳排放量——相当于在纽约和北京之间往返飞行125次。（引自《The carbon impact of artificial intelligence》，Nature Machine Intelligence volume 2, pages423–425，2020）

2022年，AIGC这类新技术给行业带来了机遇，但入局AIGC赛道并不简单，它的背后是对企业算力资源的考验。如何用有限的资金，以多元化的方式获得更多的算力资源、并做到最大化产出成为了当前企业都要面对的挑战——这是大模型大规模商业化的自然需要，也是行业即将进入make it cheap这个阶段的大势所趋。

根据AWS公布的一项数据显示，企业GPU利用率大约在10%—30%；而国内的GPU利用率大多低于15%，损失严重——造成巨大浪费的原因是用户对GPU的使用和管理粗放。凭借创始团队在GPU虚拟化及池化领域研究多年的技术积累，趋动科技创新性地提出了通过软件定义算力的GPU池化技术，能够通过软件的方式协助让用户合理地使用、管理、分配算力，提高算力的利用率，达到算力完全重复利用的效果。趋动科技的核心产品OrionX AI算力资源池化软件可以每年提升50% AI算法工程师人效、提升AI资源利用率3-8倍以及让客户总体拥有成本下降80%。据某互联网行业客户测算，在OrionX灵活的资源配比及调度策略下，完成同样任务只需原来五分之一的GPU卡数，即存量卡可以支撑当前5倍的业务需求，大大降低业务获取及运维算力的成本！

资源池化是云计算的核心支撑技术之一，其中心思想是通过软件的方法，将各种硬件(CPU内存、磁盘、网络等)变成可以动态管理的“资源池”从而简化资源管理，实现资源整合，提升资源的利用率。GPU池化也遵循这样的理念，对物理 GPU 进行抽象，软件化后形成一个统一的资源池，方便用户按需对 GPU 资源进行有效调用，无需关注实际物理 GPU 的大小、数量、型号以及安插的物理位置。（引自GPU池化术语，中国计算机学会通讯,第18卷，第八期，pages90-91，2022）

那么通过池化后的算力资源池会具备哪些能力呢？接下来让我们结合具体的场景来逐一了解：

1 算力资源的动态调用和释放。

在AI开发测试场景中，用户通常以独占形式分配算力资源，但又不是时刻使用，因此导致高占用率、低利用率的现状。通过对GPU卡资源进行池化，用户可按需动态对算力资源进行挂载和释放，提升资源利用率3-8倍。

2 昼夜资源复用。

某些在线推理业务，在时间维度有着非常显著的时间分布特性，与之相对应的是对GPU算力的占用也呈现出强烈的波峰波谷效应。GPU池化技术可以打破GPU卡独占造成的资源孤岛，按需动态调整昼夜开发和训练的资源比例，并配合任务优先级设置，综合提升运营效率4倍以上。当在线业务有请求到来时，系统会优先保障高优先级的在线业务所需的算力资源，离线业务应用此时暂时挂起，等待在线业务处理完成后再继续执行。

GPU池化makes AI cheaper_人工智能

3 CPU和GPU资源合理配比。

某些类型的训练任务（如大IO/仿真），CPU占满后，GPU使用效率很低，往往只能使用多卡中的1到几块。GPU池化技术可将CPU与GPU解耦，将任务部署到多个远程CPU服务器上，通过高性能网络调用远端未被使用的GPU卡，实现卡资源充分利用。

GPU池化makes AI cheaper_AI_02

4 多任务叠加。

为了避免业务争抢和干扰，用户大多将不同推理模型运行在独立的GPU卡上，因此产生资源浪费。通过GPU池化，不同AI业务推理模型可运行在刚好规格的虚拟GPU上，实现GPU利用率的整体提升。

GPU池化makes AI cheaper_异构_03

5 显存扩容。

基于硬件，通常不能摆脱显存的限制，单张物理GPU运行的任务有限。通过GPU池化创新的显存扩容能力，单GPU可支持多服务，实现多任务叠加。硬件不增加的情况下，系统吞吐量提升80%，并能大大提升弹性拓展能力。

GPU池化makes AI cheaper_AI_04

6 降本增效，节能减排。

由于利用率提升，使用相同数量的GPU卡能支持更多业务，或者在业务量不变的情况下使用更少的GPU卡，能帮助用户降低单位能耗。可以看到，GPU池化技术在实现碳达峰、碳中和的过程中扮演着重要角色。

GPU池化makes AI cheaper_人工智能_05

7 兼容异构算力。

OrionX支持异构算力的统一纳管，尤其是国产算力。通过这个能力，OrionX协助国产芯片建立软件生态，用户也可实现更加灵活和高效地管理和分配资源，从而满足不同用户的使用场景和需要。当用户需要扩展资源池的规模时，也可以更轻松灵活地通过添加新节点来实现。

GPU池化makes AI cheaper_AI_06

凭借标准化、可复制的产品架构，趋动科技得到了包括金融、电信运营商、自动驾驶、智能制造、能源、互联网、科研机构和高校等大量行业头部客户的认可。中国光大银行AI中台已在全栈云异构算力平台上成功投产，并在一年多的建设与推广过程中取得显著成效：一是通过GPU资源池化，AI业务运行效率显著提高，整体GPU资源利用率大幅提升，同时结合任意切分和按需分配机制，在同等GPU数量的前提下，实现了数倍业务量的弹性扩展。二是基于自助申请、动态分配设计，支持不同业务实现资源共享，有效避免算力孤岛，大幅提高算力资源利用率，有效降低了硬件采购成本。三是通过构建高效、灵活、弹性的异构算力资源池，支持用较少的芯片（耗能）来支持更多的AI业务，助力实现碳达峰、碳中和目标。

从更高的层面来看，2022年国家全面启动“东数西算”政策，目的是优化资源配置、提升资源使用效率、形成一体化的算力网络体系。中国信通院云计算与大数据研究所所长何宝宏表示，算力资源、网络资源统一调度主要通过“算网融合”实现。算力池化可在这张巨大的网络中发挥作用，提升节点服务能力、推动国产芯片自用。

数字经济时代，算力无处不在。趋动科技将通过GPU池化技术，让用户获取算力的成本及难度降低，助推人工智能产业飞轮，make AI cheaper。