建设《新型电力系统》是能源互联网双碳目标下现阶段发展的核心发展形态。绿色、智能、互联已成为电力行业主旋律。人工智能是新一代电网和能源互联网的必然选择,电力人工智能将与未来新一代数据驱动的能源互联网和谐共生。当前国家电网已在电网安全与控制、输变电、配用电、新能源并网、企业经营管理等电网各个业务场景完成人工智能技术应用布局,建成一批成熟可靠的人工智能应用,形成多业务场景交叉融合的人工智能应用产业链。

01 智慧电网带来的信息化挑战

数据、算力、算法、是以《深度学习》为代表人工智能技术构建的核心三要素。伴随着“三型两网”战略规划落地,以 CPU + GPU 异构芯片、统一计算为代表的算力需求,在电力行业快速增长,同时带来如下信息化挑战:

  • 资源利用率低。据统计,数据中心整体 GPU 使用率平均在 10% ~ 30% 之间,大量资源因独占而被浪费。
  • 成本高昂。GPU采购成本昂贵,占服务器成本50%以上,甚至一卡难求。如何平衡人效和成本成难题。
  • 无法统一调配。服务器被分配在不同的业务线、项目组,且以卡为单位调度,缺少池化层,无法灵活、统一地调配异构算力资源。
  • 芯片厂商依赖。目前数据中心人工智能算力的硬件仍以GPU为主,逐步实现技术自主可控,建立良好生态、保护投资收益,成为大型集团客户信息化战略的考虑方向。
  • 计算资源配比不均衡。不同业务模型对 CPU 与 GPU 的算力需求不同,会导致对CPU 与 GPU 的配比失衡,难以突破单机限制。
  • 需求挑战巨大。人工智能业务已深入电网从生产到配电、终端客服的各业务板块,人工智能业务增长迅速,如部分省电网公司日增AI调用可达百万级别,算力需求挑战巨大。

02 建设适用电网的异构算力资源池

为提升算力配给效率、节约社会资源,某省国网公司与趋动科技共同联手建设落地了《大规模异构算力池化调度》项目,有效保障了国网人工智能业务的算力调度供给,缓解算力资源压力,同时为未来国产化异构算力建设提供了前沿研究。

该国网“人工智能业务平台”底层采用开源 K8S 容器编排平台,结合趋动科技OrionX AI算力资源池软件,底层在功能模块进行深度整合集成,在平台层通过调用OrionX API实现OrionX vGPU资源的申请调度,OrionX vGPU按照算力1% 、显存1MB任意组合,从而实现GPU资源池化能力。与自建人工智能平台打通,二者紧密结合,构建统一的算力池调度平台。

GPU池化技术保障智慧电网高效建设_深度学习

OrionX赋能智能电网建设

03 解决方案收益

  • 降本增效。池化后,OrionX软件定义GPU算力能力,使多业务可以共享一块物理GPU,单物理GPU利用率提升300%-400%, 在不增购硬件情况下,有效缓解算力紧张。
  • 简化运维。池化后,实现国网人工智能算力资源服务快速“一站式”集成。将人工智能计算任务,算力需求进行沉淀、集中和自动化,提升了AI算力全局管理能力,管理精细度,降低人工智能平台服务管理难度。
  • 异构算力池化管理。支持国产芯片的异构管理,业务运行时可选择底层硬件类型,为国产算力的技术生态做前瞻性技术储备。
  • 优化配比。OrionX提供GPU资源实时、更多维度和细粒度的监控,及调度策略,减少资源分配不均现象。同时借助池化的跨机调用能力,能有效解决异构计算配比难题,大大提升管理能力。
  • 节能减排。以软件方式提升单GPU卡的使用效率,减少设备采购,节约设备空间和能源消耗,助力双碳减排。

趋动科技结合国网现有人工智能平台,实现了人工智能算力资源服务快速“一站式”集成,将人工智能计算任务和算力需求进行沉淀、集中和自动化,提升AI算力全局管理能力及管理精细度,助力客户充分发挥出电力企业级规模优势,全面提升其智能化程度、速度,保障智慧电网建设!