GPU池化如何帮助用户灵活“避坑”

原创

趋动科技 2024-09-14 14:52:37 ©著作权

文章标签 数据中心池化任务队列 GPU AI 文章分类 PyTorch 人工智能

©著作权归作者所有：来自51CTO博客作者趋动科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

随着5G、人工智能、云计算、大数据、IoT等技术的推动，万物互联的时代即将到来。因为大量AI应用都依赖GPU的超强计算能力，可以预见算力需求将越来越大，GPU在数据中心的地位也会越来越高。

然而理想是丰满的，现实却是骨感的，GPU的计算能力虽然很强，但GPU总是因各种原因“罢工”:不是因为GPU故障，就是因为GPU资源不够，导致上层AI应用无法安全、稳定地运行，使AI应用管理员很狼狈，每天总是疲于奔命。

究其原因主要有以下两点：

1、硬件总是不靠谱

虽然工程师们已经为服务器设计了完整的冗余性，包括双电源、双网口、Raid磁阵等，这可以大大降低单点原因带来的故障风险，但GPU卡却因无法实现双卡冗余，而无法避免因为GPU硬件带来的风险。

故障处理：

出故障的物理GPU设备，必须重新更换新的替代设备，期间可能需要经过很长的时间进行资源协调，或安装配置，才能对环境进行恢复。如果采用不同型号的GPU设备，还需要重新部署位于底层的GPU驱动和软件栈，导致故障恢复时间长。

面临的挑战：

位于同一数据中心的其它GPU节点，当前运行正常，资源长期处于空闲状态，却无法将GPU资源调度给故障主机节点使用，导致空闲资源浪费、而故障节点的AI应用无资源可用的尴尬局面。

2、虚拟机环境下，大量采用GPU直通方式

以KVM环境为例，GPU直通因其技术简单、性能损耗最小等优点，成为当今最为主流的方式。

GPU池化如何帮助用户灵活“避坑”_数据中心

添加图片注释，不超过 140 字（可选）

如上图所示，直通方式能够将GPU设备直接映射到虚拟机内部，使得AI应用能够像物理机一样使用GPU设备，不改变用户的使用习惯。

然而这样一来，当虚拟机所在宿主机的GPU卡出现故障时，就会与物理机相同的问题；一方面，对于出故障的物理GPU设备，必须重新更换新的替代设备，才能对环境进行恢复。另一方面，出故障节点的AI应用无法使用到长期处于空闲状态的GPU资源。

在此背景下，怎么帮助AI应用从故障的GPU节点“避坑”，快速找到可用资源、缩短AI应用的故障恢复时间呢？

要实现AI应用从故障的GPU节点“避坑”，必须将AI应用从GPU硬件资源上解除绑定，在架构上实现AI应用与GPU资源的解耦。趋动科技的OrionX（猎户座）AI算力资源池化技术，可以实现软件定义的GPU，为用户提供GPU资源池化的整体解决方案。帮助客户构建数据中心级AI算力资源池，使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器。

GPU池化如何帮助用户灵活“避坑”_AI_02

添加图片注释，不超过 140 字（可选）

向下：对接所有的GPU服务器，形成可管、可控、可查的GPU计算资源池，负责承载所有来自于客户端的大量计算任务。

向上：提供可弹性伸缩、可按需申请的GPU资源，为用户提供无感的资源使用体验。

GPU池化如何帮助用户灵活“避坑”_AI_03

添加图片注释，不超过 140 字（可选）

如上图所示，基于OrionX软件定义算力的能力，当AI应用在运行过程中，即使出现GPU掉线、或GPU主机节点宕机的情况，OrionX能够快速从资源池中的其它GPU节点分配新的GPU资源给AI应用，用户只需要重新启动任务，即可完成GPU资源的快速切换。

AI应用对OrionX分配的资源变化完全无感知，有效地避免了因硬件故障导致业务长时间宕机的情况；特别是在AI任务推理场景中，效果更加显著，管理员不用再担心因硬件带来的故障风险，大大提升了用户使用体验，提高了资源利用率。

除此之外，GPU池化还具备以下价值点：

1、远程调用

OrionX支持提供GPU资源远程调度的能力，即AI训练或推理服务部署在非GPU主机上，借助集群内其他GPU主机实现远程GPU的加速能力，并保障服务性能。

2、资源切分

OrionX提供GPU单卡资源算力切分功能，可实现多个服务容器共享单张GPU卡，并支持限制和隔离每个服务容器所占用的GPU算力、显存额度。基于OrionX提供的隔离功能，能够保障服务间互不干扰，保障服务性能。

3、算力隔离

OrionX提供GPU资源的算力和显存配额功能，以达到多个任务同时运行在一个GPU设备时，避免资源争抢的情况，从而实现资源隔离，让AI应用更加稳定。

4、任务管理

OrionX提供任务管理功能，包括任务队列、任务抢占、任务高低优先级等。当资源池剩余资源不够时，OrionX任务队列支持将客户端提交的任务自动排入OrionX的任务队列，不同优先级别的任务按高低顺序排队，相同级别按进入队列时间先后顺序排队，让任务运行更加合理、科学；针对关键且紧急的任务时，通过任务抢占功能，能够从GPU资源池内自动筛选出满足资源条件，且能够被抢占的任务择优进行中断，并将被中断任务所释放的资源用于该任务，确保关键任务优先运行，从而减少人工干预，提高资源利用率和管理效率。