1 引言

随着人工智能技术的飞速发展,AI算力基础设施已成为支撑AI创新的关键。然而,当前的AI算力基础设施建设及管理面临着诸多挑战。

目前常见的异构GPU集群部署和形态为图1-1的孤岛式集群部署+烟囱式算力使用。

GPU设备化到服务化:高质量AI算力基础设施的关键_服务化

图1-1 传统异构GPU集群形态

孤岛式异构集群,即每个厂商的异构智算资源单独组集群。GPU算力供给侧通常会基于多个厂商的多类 AI服务器进行建设,不同厂商不同AI芯片架构的服务器资源互相独立,生态隔离,形成算力孤岛,给运维带来很大挑战。

烟囱式算力使用,即应用只能独占且静态的使用本服务器的GPU算力。通过直通物理或者虚拟设备的方式提供虚拟化/容器化的应用,应用算力可获取性和算力的扩缩容依赖于本服务器算力的可用性。

这种烟囱式的使用方式带来如下几个关键挑战:

❌ 资源管理和使用效率低下:算力和显存资源为独占模式,不支持资源动态调整,运维效果不理想。

❌ 故障隔离挑战:无法在卡亚健康状态下,提前规避故障,任务无法快速从故障中隔离。

❌ 单节点算力使用受限:无法跨节点调用算力,服务器选型时的CPU和GPU配比难,如果配比不合理,可能会出现一方资源重载,而另一方资源轻载的情况,从而导致昂贵的算力被浪费。

显然在当下GPU算力昂贵、且算力需求激增的背景下,这种烟囱式的算力使用方式无法满足高质量算力基础设施的要求。高质量算力基础设施应该具有图1-2的关键因素:

GPU设备化到服务化:高质量AI算力基础设施的关键_GPU池化_02

图1-2 高质量算力基础设施关键因素

本文将探讨如何通过GPU资源服务化分配,打造高质量、灵活且高效的基础设施。

2 资源设备化

资源设备化指的是以物理设备或者虚拟设备形式存在的资源,比如服务器、存储设备、网络设备,GPU等。当通过设备提供给应用使用的时候,是一种独占式的静态分配

设备化使用资源存在一些缺点,例如:

❌ 资源利用率低:在设备化使用的情况下,单个设备通常只能分配给单一用户或任务使用,无法实现资源复用。这可能导致资源利用率不高,特别是在资源不被充分利用的情况下。

❌ 缺乏灵活性:在资源分配和任务调度上缺乏灵活性,难以快速适应变化的计算需求。

❌ 可扩展性受限:资源的扩展性可能受到物理硬件数量和空间的限制。

❌ 环境依赖性强:设备化资源的使用通常受限于特定的物理环境。

❌ 使用运维门槛高:对于使用人员来讲,使用设备化资源可能需要专业的硬件操作和维护技能。

对于GPU资源来说,传统GPU直通使用方式,以及目前一些主流互联网厂商和云厂商提供的GPU虚拟化方案都是设备化分配的范畴,如图2-1所示:

GPU设备化到服务化:高质量AI算力基础设施的关键_GPU池化_03

图2-1 GPU算力设备化分配

这种分配方式下,GPU资源或者切分的GPU资源被作为一个设备静态配置到虚机或者容器内部,应用存活期间独占该设备;直至应用销毁,才会释放该设备。

可见,传统孤岛式集群+烟囱式算力使用的根源在于底层资源分配逻辑是设备化的分配。因此,为了打造高质量AI算力基础设施,底层资源分配方式的改变是必不可少的。

3 资源服务化

资源分配的另外一种方式便是资源服务化,它是指将物理资源抽象化,通过软件和服务的形式提供给用户,它具有如下优点:

✔ 资源使用率提高:应用根据实际需求取用资源,可随时获取或释放资源,实现资源的弹性伸缩,利用率大幅提升。

✔ 灵活性高:灵活的资源调度策略使应用可以快速获得所需资源,搭配高级的超分超售能力,使得有限的资源支撑更多业务。

✔ 可扩展性强:服务化资源可以快速扩展或缩减,以适应业务需求的变化。

✔ 环境依赖小:服务化资源可以提供更广泛的访问性和更好的地理位置无关性。用户无需关心背后的物理设备,只需按需使用服务即可。

✔ 运维自动化:资源自动分配,自动回收,无需人工干预。业务方可聚焦在业务逻辑,省心省力。

✔ 成本效益高:用户根据实际使用的服务付费,一方面可以精细化运营算力资源,另一方面可以降低用户的总体拥有成本(TCO)。

GPU设备化到服务化:高质量AI算力基础设施的关键_AI_04

图3-1 GPU算力服务化分配

这种方式下,GPU资源被作为算力服务动态分配给虚机或者容器,可以实现任务级别的算力即取即用,同时可以实现GPU资源不变的情况下,服务更多用户或应用。

GPU服务化能够从容应对传统异构智算集群的管理挑战:

▪ 针对不同服务类型,调度相应的算力资源,并且支持异构GPU的同集群纳管。

▪ 将资源提供方和使用方解耦,解决烟囱式的算力使用瓶颈。

▪ 资源实现按需取用,即取即用,闲置算力被充分利用,提升GPU使用率。

4 GPU服务化的最佳实践 – OrionX

趋动科技的OrionX解决方案,以其GPU池化层的创新技术,引领了软件定义GPU算力的新纪元。这一技术不仅实现了服务化的算力分配,更助力客户在AI算力基础设施的形态转型上迈出了坚实的步伐。

GPU设备化到服务化:高质量AI算力基础设施的关键_AI算力_05

图4-1 软件定义异构算力集群形态

在图4-1 OrionX赋能的新型基础设施形态中,我们能够见证以下变革:

▪ 资源统一管理:OrionX将异构AI算力资源纳入统一的集群管理之中,通过其平台对外提供不同生态的算力服务,实现了资源的高效整合与优化配置。

▪ 智能算力调度:OrionX为应用提供了智能化、精准化的算力服务调度,确保了全流程的资源自动分配与自动回收。这种按需取用的算力服务模式,实现了资源的即时可用性,同时提供了更加灵活的资源使用方式。

▪ 应用与算力解耦:OrionX的算力池化技术实现了应用与算力的解耦合,使得应用部署更加灵活,不再受限于宿主机的算力类型,极大地提升了资源的利用效率和应用的可移植性。

OrionX可以为AI算力基础设施的支撑能力带来极大提升:

✔ 开放性:OrionX保持了CUDA生态系统的开放性,避免了对特定技术的依赖。它打破了传统服务器算力的局限,从而显著增加了潜在可用的算力资源。

✔ 融合性:OrionX提供多样化的算力供应,能够满足不同应用对算力的差异化需求。无论是多厂商产品、不同精度要求,还是多样化的算力水平,包括物理卡和虚拟卡,OrionX都能提供相应的支持。

✔ 绿色性:通过智能调度和服务端的热迁移技术,OrionX实现了资源使用的精细化管理,减少了不必要的能源消耗。这使得暂时不需要的服务器能够及时下电,进一步提高了能源效率。

✔ 管理性:OrionX不仅加强了常规的运维管理,还提供了更多主动干预任务的能力,使得运维更加高效和智能。

✔ 敏捷性:OrionX将算力的使用模式从传统的设备独占式转变为服务化的动态使用,有效减少了算力的闲置时间,提高了资源的利用率。

✔ 普惠性:基于服务化的算力供应,OrionX通过超分超售和任务队列等机制,最大限度地利用了所有可用的算力资源,从而显著降低了算力成本,使得高性能计算更加普及和经济。

5 结语

在当今快速发展的AI技术领域,趋动科技的OrionX AI算力池化解决方案提供了一种全新的视角和方法。

OrionX专注于GPU服务化,通过创新的技术和灵活的服务模式,为用户提供了一种高效、可扩展且成本效益高的解决方案,它以其独特的GPU服务化理念,为用户提供了一个打造高质量算力基础设施的新选择,也为整个行业树立了一个高标准。通过OrionX,趋动科技正在引领GPU服务化的潮流,助力用户构建强大的计算平台。

参考资料:

1. 算力基础设施高质量发展行动计划 - 中国政府网

https://www.gov.cn/zhengce/zhengceku/202310/P020231009520949915888.pdf

2. 《中国算力产业高质量发展白皮书》

https://www.cidc.org.cn/news/20230309/818449559544922112.html

3. 揭秘GPU技术新趋势:从虚拟化到池化

https://blog.csdn.net/njbaige/article/details/139455360

4. GPU虚拟化的实现方案:从设备模拟到完全GPU虚拟化

https://developer.baidu.com/art