智算池化助力城市算力网建设

原创

趋动科技 2024-09-06 10:29:04 ©著作权

文章标签 池化异构基础设施人工智能 AI 文章分类 PyTorch 人工智能

©著作权归作者所有：来自51CTO博客作者趋动科技的原创作品，请联系作者获取转载授权，否则将追究法律责任

1 方案背景

党中央、国务院高度重视新型基础设施建设，2020年4月20日，国家发改委首次明确新型基础设施范围，将智能计算中心（以下简称“智算中心”）作为算力基础设施的重要代表纳入信息基础设施范畴。

智算中心是基于最新人工智能理论，采用领先的人工智能计算架构，提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施，通过算力的生产、聚合、调度和释放，高效支撑数据开放共享、智能生态建设、产业创新聚集，有力促进AI产业化、产业AI化及政府治理智能化。

然而，目前许多地市下辖多个中小型智算中心，智算资源存在异属、异地、异构现象，规划、建设及运营各自为营，智算中心难以形成规模算力供给能力和智算服务品牌优势，供需对接不畅、资源利用率低等问题也会严重制约城市数字化转型的建设发展。

卡点：无法对各分散智算中心节点的多元异构智算资源进行统一的分配、管理、监控和运维。

堵点：无法实现智算资源随取随用、灵活配置和按需收费，智算服务门槛高，标准化和普惠化程度低，难以满足多元化市场需求。

2 解决方案

2.1 思路目标

通过网络连接各分散智算中心节点的多元异构智算资源，并实现资源高效调度、算力灵活供给和服务智能随需，从而提高智算资源利用率、促进不同计算精度智算资源服务有机协同、提升智能算力在人工智能等领域适配水平、助力国家枢纽节点智算资源应用、加强多元智算互联互通和统一服务。

2.2 主要举措

城市算力网借鉴云计算理念，利用软件定义AI算力的池化技术，统一纳管城市各分散智算中心节点的多元异构智算资源，实现AI芯片的任意虚拟化、远程调用和池化，快速构建完备的智算资源服务能力，并提供四大资源敏捷管理核心功能，优化资源效率，降低总体购置成本：

化整为零：改变传统整卡分配、一虚多的粗放式分配，根据AI任务需求做到1%算力和1MB显存的细粒度资源按需供给；

隔空取物：基于高速无损网络，跨节点调取智算资源，使CPU及AI芯片高度解耦，进一步降低碎片化率；

化零为整：整合分布在多机上的零散资源，汇聚成为大模型业务可使用的资源，使资源可高效分配；

变静为动：改变传统的资源静态绑定的机制，使能资源可以根据负载变化动态分配、回收，多任务间可以峰谷互补，全局资源可以适度超分，促进资源效率提升。

2.3 方案实践

构建软件定义的异构AI算力资源池，使AI应用无需修改就能透明地共享和使用各智算中心内任何服务器之上的AI算力资源，不但能够提高智算资源利用率，而且可以极大便利AI应用的部署。

智算池化助力城市算力网建设_人工智能

图1. 软件定义的异构AI算力资源池

如图1所示，基于软件定义AI算力技术，颠覆了原有的AI应用直接调用物理AI芯片的架构，通过增加池化层将AI应用与物理AI芯片解耦合。AI应用调用逻辑的vDevice，再由池化层将vDevice需求匹配到具体的物理AI芯片。新架构实现了AI算力的池化，让用户高效、智能、灵活的使用AI算力资源，降本增效。

2.4 运营模式

智算资源池化后，城市算力网可对外提供高性价比的智算资源服务：

实时获取：海量云端智算资源，随取随用；

按需使用：满足多样化智算资源需求，摆脱硬件选型困扰；

按量计费：根据AI业务应用实际需求，支持分钟级计费；

规格打包：智算资源规格化打包，无须反复进行繁琐资源配置。