1 方案背景

党中央、国务院高度重视新型基础设施建设,2020年4月20日,国家发改委首次明确新型基础设施范围,将智能计算中心(以下简称“智算中心”)作为算力基础设施的重要代表纳入信息基础设施范畴。

智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和释放,高效支撑数据开放共享、智能生态建设、产业创新聚集,有力促进AI产业化、产业AI化及政府治理智能化。

然而,目前许多地市下辖多个中小型智算中心,智算资源存在异属、异地、异构现象,规划、建设及运营各自为营,智算中心难以形成规模算力供给能力和智算服务品牌优势,供需对接不畅、资源利用率低等问题也会严重制约城市数字化转型的建设发展。

卡点:无法对各分散智算中心节点的多元异构智算资源进行统一的分配、管理、监控和运维。

堵点:无法实现智算资源随取随用、灵活配置和按需收费,智算服务门槛高,标准化和普惠化程度低,难以满足多元化市场需求。

2 解决方案

2.1 思路目标

通过网络连接各分散智算中心节点的多元异构智算资源,并实现资源高效调度、算力灵活供给和服务智能随需,从而提高智算资源利用率、促进不同计算精度智算资源服务有机协同、提升智能算力在人工智能等领域适配水平、助力国家枢纽节点智算资源应用、加强多元智算互联互通和统一服务。

2.2 主要举措

城市算力网借鉴云计算理念,利用软件定义AI算力的池化技术,统一纳管城市各分散智算中心节点的多元异构智算资源,实现AI芯片的任意虚拟化、远程调用和池化,快速构建完备的智算资源服务能力,并提供四大资源敏捷管理核心功能,优化资源效率,降低总体购置成本:

化整为零:改变传统整卡分配、一虚多的粗放式分配,根据AI任务需求做到1%算力和1MB显存的细粒度资源按需供给;

隔空取物:基于高速无损网络,跨节点调取智算资源,使CPU及AI芯片高度解耦,进一步降低碎片化率;

化零为整:整合分布在多机上的零散资源,汇聚成为大模型业务可使用的资源,使资源可高效分配;

变静为动:改变传统的资源静态绑定的机制,使能资源可以根据负载变化动态分配、回收,多任务间可以峰谷互补,全局资源可以适度超分,促进资源效率提升。

2.3 方案实践

构建软件定义的异构AI算力资源池,使AI应用无需修改就能透明地共享和使用各智算中心内任何服务器之上的AI算力资源,不但能够提高智算资源利用率,而且可以极大便利AI应用的部署。

智算池化助力城市算力网建设_人工智能

图1. 软件定义的异构AI算力资源池

如图1所示,基于软件定义AI算力技术,颠覆了原有的AI应用直接调用物理AI芯片的架构,通过增加池化层将AI应用与物理AI芯片解耦合。AI应用调用逻辑的vDevice,再由池化层将vDevice需求匹配到具体的物理AI芯片。新架构实现了AI算力的池化,让用户高效、智能、灵活的使用AI算力资源,降本增效。

2.4 运营模式

智算资源池化后,城市算力网可对外提供高性价比的智算资源服务:

实时获取:海量云端智算资源,随取随用;

按需使用:满足多样化智算资源需求,摆脱硬件选型困扰;

按量计费:根据AI业务应用实际需求,支持分钟级计费;

规格打包:智算资源规格化打包,无须反复进行繁琐资源配置。

3 应用成效

3.1 经济效益

智算池化给城市算力网在释放算力、提升人效、节约投资及节能减排等方面均带来重要价值,如图2所示:

智算池化助力城市算力网建设_人工智能_02

图2. 智算池化价值

3.2 社会效益

城市算力网的智算池化应用案例已树立行业标杆,凝聚产业共识,推动了中国信通院泰尔终端实验室联合趋动科技立项团体标准《新型智算中心算力池化技术规范》,为国内智能算力生态的良性发展奠定坚实基础。

智算池化技术可统一纳管英伟达GPU和国产信创AI芯片并进行池化应用,具备构建信创异构AI算力资源池的能力。从而帮助国内相关企业实现从英伟达GPU到国产信创AI算力的平稳过渡,有效应对断供风险,为国内AI行业的长期稳定发展提供切实有效的AI算力资源保障。

4 创新点

4.1 技术创新

软件定义AI算力的池化技术,实现了AI芯片的任意虚拟化、远程调用和池化。

4.2 模式创新

提供智算池化云服务,实现智算资源随取随用、灵活配置和按需收费。

4.3 管理创新

可对多元异构智算资源进行统一的分配、管理、监控和运维,支持AI任务级别的显存和算力利用率监控和告警,支持全局资源的监控告警和统计能力。

4.4 机制创新

促进智算服务标准化和普惠化,提升智算资源利用率,降低智算服务使用门槛,满足多元化市场需求,为经济社会高质量发展强基筑本。