AI数字人业务有多卷?GPU池化技术来赋能!_算力池化


2023年9月,由中国银行业协会指导、网商银行主办的外滩大会见解论坛“银行业数字化 向金融健康进阶”专场活动在上海举办。在论坛的科技展示环节,工商银行、交通银行、招商银行、浦发银行、光大银行、民生银行、平安银行、百信银行和网商银行等9家银行的AI数字员工集体亮相,让人眼前一亮。

AI数字员工能说会道懂业务,八成银行将“聘用”AI数字员工。据IDC预测,到2025年,银行业的AI数字员工预计承担90%的客服和理财咨询服务。目前各家银行的AI数字员工数量已超过10个。

01 AI数字人的特征

当前AI数字人的概念非常火爆,大量AI数字人在资本和市场的推动下竞相问世。最近几年,AI数字人在包括银行业金融机构在内的众多行业领域都得到了广泛的业务应用。那么让各行各业卷起研究应用热潮的AI数字人,究竟有哪些特征呢?

AI数字人业务有多卷?GPU池化技术来赋能!_深度学习_02

AI数字人的三大基本特征(来源:商汤智能产业研究院)

首先,多模态交互是AI数字人的“核心力”,它是指利用数字化的技术,模拟人与人之间的自然交互方式。人类可以通过语言、文本、甚至是不同手势或表情,来与AI数字人进行交互。这里会涉及计算机视觉(CV)、语音识别(ASR)、语音合成(TTS)、语音合成动画(STA)和语义理解(NLP/知识图谱)等多项AI技术能力。

其次,深度学习是AI数字人的“创造力”,它是指基于计算机深度学习技术,让AI数字人不断学习新的语料和数据,在经过训练及现实应用的反馈后,不断地迭代和延展它的能力和交互水平。通过深度学习,AI数字人不仅专业度有所加深,还可以跨业务学习知识,从而支持跨业务服务。

最后,AIGC是AI数字人的“生产力”,它在重塑AI数字人制作流程,通过引入AI生成内容的能力,在人物模型的重建、动画准备和制作等各个环节辅助AI数字人自动化生成,大幅加速AI数字人生产,降低制作门槛和成本投入,是 AI 数字人的生产力之本。

02 AI数字人业务对算力的需求及挑战

通过AI数字人的基本特征可以了解到,一个完整的AI数字人业务,需要多个AI技术能力模型共同支撑,存在模型训练和模型推理并发的情况,也存在AI计算和渲染处理并发的情况。所以AI数字人业务在AI算力调度使用方面的场景,将比一般的AI应用更加复杂,而且需要大量的算力资源投入来保障业务稳定运行,如:
(1)用户通常选用不同型号和系列的GPU、以及其他AI芯片来处理AI计算和渲染任务,这就涉及到不同类型硬件的支撑分配;而当AI计算和渲染处理并发时,又涉及不同算力硬件同步调度的问题;
(2)深度学习训练模型对CPU和GPU算力都有较高要求,这就需要配置足够多的CPU和GPU资源,CPU和GPU的配比如何均衡或成瓶颈;
(3)驱动能力(表情、肢体和语音)推理模型,对延迟非常敏感,需要高性能的算力来满足实时推理需求,尤其是与模型训练并发时的性能保障。
AI数字人业务应用这种多硬件类别、大需求量和高配置规格的AI算力资源需求,同时面对硬件供应相对紧张的现状,给开发AI数字人业务应用的用户带来了较大的业务挑战和成本压力。

如何在保障业务应用平稳运行的同时、又能优化AI算力资源的运行效率、减少GPU硬件投入,成为AI数字人业务应用落地亟待解决的问题。

03 GPU池化技术赋能AI数字人业务

针对AI数字人业务的AI算力需求及挑战,趋动科技提供了OrionX AI算力资源池化解决方案。OrionX通过池化技术,形成软件定义的AI算力资源池,从而让AI数字人业务可以高效、灵活、智能的管理、调度和使用算力资源。
OrionX凭借丰富的池化能力,可有效应对AI数字人业务在GPU算力调度使用方面的各类典型场景:

场景一 AI计算与渲染处理并发

(1)OrionX实现AI计算卡与渲染卡灵活搭配

AI数字人业务有多卷?GPU池化技术来赋能!_深度学习_03

通过远程调用,两类服务器各司其职、相互搭配,共同支撑一个AI数字人应用,实现AI计算与渲染处理并发时的资源同步调度,解决了不同型号的卡无法在同一主机内混插的问题。

AI数字人业务有多卷?GPU池化技术来赋能!_算力池化_04

(2)OrionX同时支持CUDA和OpenGL

OrionX支持多协议架构,可在单个容器或虚拟机中分配OrionX vGPU算力资源,即可同时用于AI计算和渲染处理,解决了AI计算模型和图形渲染程序需部署在不同容器或虚拟机所带来的不便。


AI数字人业务有多卷?GPU池化技术来赋能!_推理模型_05

场景二 模型对CPU和GPU有较高要求

OrionX可通过远程调用技术实现深度学习训练模型与GPU服务器的分离部署,即可将深度学习训练模型部署在远端CPU服务器上,然后通过RDMA高性能网络远程调用其他GPU服务器上未使用的GPU卡,从而突破CPU和GPU在单台服务器上的配比限制,达成CPU资源和GPU资源弹性契合的效果。

此外,在分布式训练场景下,OrionX还可通过资源聚合技术化零为整,快速聚合多机多卡GPU资源给到一个深度学习训练模型,规避了多机多POD多镜像部署、需要免密和需保证环境一致等诸多问题。

场景三 多个对延迟敏感的推理模型并发

OrionX可按需将高性能的AI算力卡切分成多个OrionX vGPU(最细颗粒度为1%算力和1MB显存),供多个对延迟敏感的推理模型并发运行,既提高了物理卡的资源利用率,又增加了AI数字人业务的规模。

与此同时,OrionX可通过显存隔离技术实现OrionX vGPU资源隔离,确保各推理模型安全地并发运行。

场景四 对延迟敏感的推理与训练模型并发

在训练模型与推理模型混合部署的情况下,存在训练模型与推理模型并发且争抢AI算力资源的情况,客户可通过OrionX的队列优先级机制,让对延迟敏感的推理模型优先获得AI算力资源,保障业务实时响应效果。

场景五 GPU资源不足于覆盖业务需求

在全量AI算力资源不足以完全覆盖AI数字人业务需求的情况下,OrionX可通过算力/显存超分技术进一步提升弹性契合空间,盘活存量资源,优化资源运行效率。
此外,OrionX还提供资源弹性伸缩以及秒级资源动态分配与回收,进一步提高资源利用率,提升研发效率;支持物理资源与虚拟资源作双资源池管理,灵活应对不同形态的资源使用需求。

04 总结

AI数字人持续火热,业务应用前景广阔。相信在不久的将来,AI数字人业务将深度赋能各行各业。作为软件定义AI算力的技术领导者,趋动科技将一路同行,凭借算力池化技术持续赋能AI数字人业务的蓬勃发展。

趋动科技

趋动科技作为软件定义AI算力技术的领导厂商,专注于为全球用户提供国际领先的数据中心级AI算力虚拟化和资源池化软件及解决方案,已完成中关村高新、国高新、“专精特新”等企业认证。趋动科技的 OrionX 猎户座 AI 算力资源池化软件能够帮助用户提高资源利用率和降低TCO,提高算法工程师的工作效率。趋动科技的双子座 GEMINI AI 训练平台,为客户提供强大的AI算力管理服务以及高效的算法开发和训练支持,能够化繁为简,帮助企业建好AI平台、管好 GPU、用好 AI 服务。依托全球领先的AI算力池化技术,趋动科技重磅推出趋动云VirtAI Cloud,为万千企业和AI开发者带来又便宜、又好用的AI算力池化云服务。

凭借标准化、可复制的产品架构,趋动科技得到了包括互联网、金融、电信运营商、自动驾驶、能源、科研机构和高校等大量行业头部客户的认可。资本市场对于趋动科技的发展充满信心——趋动科技成立两年多已经完成近亿美元的融资,顶级的投资机构持续支持趋动科技的发展,包括国开装备基金、沙特阿美旗下多元化风投基金Prosperity7 Ventures、元禾重元、招银国际、顺为、高瓴、嘉御、戈壁、讯飞和涌铧在内的国内外顶级VC正在见证趋动科技锐意进取的脚步。