GPU设备化到服务化：高质量AI算力基础设施的关键

原创

趋动科技 2024-09-09 10:50:20 ©著作权

文章标签 服务化 AI AI算力 GPU GPU池化 文章分类 PyTorch 人工智能

©著作权归作者所有：来自51CTO博客作者趋动科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

1 引言

随着人工智能技术的飞速发展，AI算力基础设施已成为支撑AI创新的关键。然而，当前的AI算力基础设施建设及管理面临着诸多挑战。

目前常见的异构GPU集群部署和形态为图1-1的孤岛式集群部署+烟囱式算力使用。

GPU设备化到服务化：高质量AI算力基础设施的关键_服务化

图1-1 传统异构GPU集群形态

孤岛式异构集群，即每个厂商的异构智算资源单独组集群。GPU算力供给侧通常会基于多个厂商的多类 AI服务器进行建设，不同厂商不同AI芯片架构的服务器资源互相独立，生态隔离，形成算力孤岛，给运维带来很大挑战。

烟囱式算力使用，即应用只能独占且静态的使用本服务器的GPU算力。通过直通物理或者虚拟设备的方式提供虚拟化/容器化的应用，应用算力可获取性和算力的扩缩容依赖于本服务器算力的可用性。

这种烟囱式的使用方式带来如下几个关键挑战：

❌ 资源管理和使用效率低下：算力和显存资源为独占模式，不支持资源动态调整，运维效果不理想。

❌ 故障隔离挑战：无法在卡亚健康状态下，提前规避故障，任务无法快速从故障中隔离。

❌ 单节点算力使用受限：无法跨节点调用算力，服务器选型时的CPU和GPU配比难，如果配比不合理，可能会出现一方资源重载，而另一方资源轻载的情况，从而导致昂贵的算力被浪费。

显然在当下GPU算力昂贵、且算力需求激增的背景下，这种烟囱式的算力使用方式无法满足高质量算力基础设施的要求。高质量算力基础设施应该具有图1-2的关键因素：

GPU设备化到服务化：高质量AI算力基础设施的关键_GPU池化_02

图1-2 高质量算力基础设施关键因素

本文将探讨如何通过GPU资源服务化分配，打造高质量、灵活且高效的基础设施。

2 资源设备化

资源设备化指的是以物理设备或者虚拟设备形式存在的资源，比如服务器、存储设备、网络设备，GPU等。当通过设备提供给应用使用的时候，是一种独占式的静态分配。

设备化使用资源存在一些缺点，例如：

❌ 资源利用率低：在设备化使用的情况下，单个设备通常只能分配给单一用户或任务使用，无法实现资源复用。这可能导致资源利用率不高，特别是在资源不被充分利用的情况下。

❌ 缺乏灵活性：在资源分配和任务调度上缺乏灵活性，难以快速适应变化的计算需求。

❌ 可扩展性受限：资源的扩展性可能受到物理硬件数量和空间的限制。

❌ 环境依赖性强：设备化资源的使用通常受限于特定的物理环境。

❌ 使用运维门槛高：对于使用人员来讲，使用设备化资源可能需要专业的硬件操作和维护技能。

对于GPU资源来说，传统GPU直通使用方式，以及目前一些主流互联网厂商和云厂商提供的GPU虚拟化方案都是设备化分配的范畴，如图2-1所示：

GPU设备化到服务化：高质量AI算力基础设施的关键_GPU池化_03

图2-1 GPU算力设备化分配

这种分配方式下，GPU资源或者切分的GPU资源被作为一个设备静态配置到虚机或者容器内部，应用存活期间独占该设备；直至应用销毁，才会释放该设备。

可见，传统孤岛式集群+烟囱式算力使用的根源在于底层资源分配逻辑是设备化的分配。因此，为了打造高质量AI算力基础设施，底层资源分配方式的改变是必不可少的。

3 资源服务化

资源分配的另外一种方式便是资源服务化，它是指将物理资源抽象化，通过软件和服务的形式提供给用户，它具有如下优点:

✔ 资源使用率提高：应用根据实际需求取用资源，可随时获取或释放资源，实现资源的弹性伸缩，利用率大幅提升。

✔ 灵活性高：灵活的资源调度策略使应用可以快速获得所需资源，搭配高级的超分超售能力，使得有限的资源支撑更多业务。

✔ 可扩展性强：服务化资源可以快速扩展或缩减，以适应业务需求的变化。

✔ 环境依赖小：服务化资源可以提供更广泛的访问性和更好的地理位置无关性。用户无需关心背后的物理设备，只需按需使用服务即可。

✔ 运维自动化：资源自动分配，自动回收，无需人工干预。业务方可聚焦在业务逻辑，省心省力。

✔ 成本效益高：用户根据实际使用的服务付费，一方面可以精细化运营算力资源，另一方面可以降低用户的总体拥有成本（TCO）。

GPU设备化到服务化：高质量AI算力基础设施的关键_AI_04

图3-1 GPU算力服务化分配

这种方式下，GPU资源被作为算力服务动态分配给虚机或者容器，可以实现任务级别的算力即取即用，同时可以实现GPU资源不变的情况下，服务更多用户或应用。

GPU服务化能够从容应对传统异构智算集群的管理挑战：

▪ 针对不同服务类型，调度相应的算力资源，并且支持异构GPU的同集群纳管。

▪ 将资源提供方和使用方解耦，解决烟囱式的算力使用瓶颈。

▪ 资源实现按需取用，即取即用，闲置算力被充分利用，提升GPU使用率。

4 GPU服务化的最佳实践 – OrionX

趋动科技的OrionX解决方案，以其GPU池化层的创新技术，引领了软件定义GPU算力的新纪元。这一技术不仅实现了服务化的算力分配，更助力客户在AI算力基础设施的形态转型上迈出了坚实的步伐。

GPU设备化到服务化：高质量AI算力基础设施的关键_AI算力_05

图4-1 软件定义异构算力集群形态

在图4-1 OrionX赋能的新型基础设施形态中，我们能够见证以下变革：

▪ 资源统一管理：OrionX将异构AI算力资源纳入统一的集群管理之中，通过其平台对外提供不同生态的算力服务，实现了资源的高效整合与优化配置。

▪ 智能算力调度：OrionX为应用提供了智能化、精准化的算力服务调度，确保了全流程的资源自动分配与自动回收。这种按需取用的算力服务模式，实现了资源的即时可用性，同时提供了更加灵活的资源使用方式。

▪ 应用与算力解耦：OrionX的算力池化技术实现了应用与算力的解耦合，使得应用部署更加灵活，不再受限于宿主机的算力类型，极大地提升了资源的利用效率和应用的可移植性。

OrionX可以为AI算力基础设施的支撑能力带来极大提升：

✔ 开放性：OrionX保持了CUDA生态系统的开放性，避免了对特定技术的依赖。它打破了传统服务器算力的局限，从而显著增加了潜在可用的算力资源。

✔ 融合性：OrionX提供多样化的算力供应，能够满足不同应用对算力的差异化需求。无论是多厂商产品、不同精度要求，还是多样化的算力水平，包括物理卡和虚拟卡，OrionX都能提供相应的支持。

✔ 绿色性：通过智能调度和服务端的热迁移技术，OrionX实现了资源使用的精细化管理，减少了不必要的能源消耗。这使得暂时不需要的服务器能够及时下电，进一步提高了能源效率。

✔ 管理性：OrionX不仅加强了常规的运维管理，还提供了更多主动干预任务的能力，使得运维更加高效和智能。

✔ 敏捷性：OrionX将算力的使用模式从传统的设备独占式转变为服务化的动态使用，有效减少了算力的闲置时间，提高了资源的利用率。

✔ 普惠性：基于服务化的算力供应，OrionX通过超分超售和任务队列等机制，最大限度地利用了所有可用的算力资源，从而显著降低了算力成本，使得高性能计算更加普及和经济。

5 结语

在当今快速发展的AI技术领域，趋动科技的OrionX AI算力池化解决方案提供了一种全新的视角和方法。

OrionX专注于GPU服务化，通过创新的技术和灵活的服务模式，为用户提供了一种高效、可扩展且成本效益高的解决方案，它以其独特的GPU服务化理念，为用户提供了一个打造高质量算力基础设施的新选择，也为整个行业树立了一个高标准。通过OrionX，趋动科技正在引领GPU服务化的潮流，助力用户构建强大的计算平台。

参考资料：

1. 算力基础设施高质量发展行动计划 - 中国政府网

https://www.gov.cn/zhengce/zhengceku/202310/P020231009520949915888.pdf

2. 《中国算力产业高质量发展白皮书》

https://www.cidc.org.cn/news/20230309/818449559544922112.html

3. 揭秘GPU技术新趋势：从虚拟化到池化

https://blog.csdn.net/njbaige/article/details/139455360

4. GPU虚拟化的实现方案：从设备模拟到完全GPU虚拟化

https://developer.baidu.com/art