1、什么是OAM? 

OCP Accelerator Module,OCP 加速器模块。

OAM设计规范定义了计算加速器模块的夹层外形(mezzanine form factor)和通用规范。与 PCIe 附加卡外形规格相比,OAM 的夹层模块外形的规格通过简化模块间高速通信链路互连时的系统解决方案来促进跨加速器的可扩展性。


2、什么是OAI? 

OpenAccelerator Infrastructure,开放加速器基础设施。

OAI是OCP服务器项目(OCP Server Project)中的一个子项目。


备注:《一图了解OCP(开放计算)全部九大类项目》


2019年3月,Facebook连同微软、百度一起开源OAM规范的时候,同时成立了OAI开源项目组,OAI主要目的:定义和建立OAM相关的技术架构,包括结构设计、电子、散热、管理、供电、安全、可用性等各个方面。


3、为什么需要 OAI?


人工智能 (AI) 应用程序正在迅速发展,并促进了用于机器学习 (ML)、深度学习 (DL) 和高性能计算 (HPC) 的新型硬件加速器的爆炸式增长。针对电源/冷却、稳健性、可服务性、配置、编程、管理和调试,以及模块间通信的扩展、输入/输出带宽的扩展等类似需求,有着不同的实现。


为了利用行业标准的外形尺寸(Form Factors)来减少解决方案所需的时间和精力,为快速进入市场,各种实现都选择 PCIe CEM 外形尺寸。此类解决方案并未针对即将到来的 AI 工作负载进行优化,这些工作负载需要不断增长的带宽和数据/模型并行的互连灵活性。


因此,我们需要一个开放的基础设施来促进人工智能的快速创新。OAI 是开放加速器基础设施与开放的人工智能融合的地方。


以我(微信公众号 乐生活与爱IT - 编者 Peter Ye)之见,推出OAI/OAM,就是促进标准化、降低门槛、助力创新,加速AI硬件加速模块的实现


4、OAI的实践

浪潮积极参与OAM规范的开发,并率先设计开发全球首款符合OAM的AI开放加速系统。浪潮积极推动OAI标准核心目的是:

1)降低业界伙伴进入OAI领域开发的难度;

2)不同的客户可以基于UBB的设计,根据自己不同的work load快速构建基于OAM的系统,从而缩短产品上市的周期;

3)通过浪潮的UBB和符合OCP标准系统的设计,让开源技术更广泛的推广到产业链,使产业配套更加简化。

图文和视频了解OCP之OAI/OAM_百度


浪潮主要有三大贡献,第一,浪潮参与了OAM模块SPEC的制订;第二,浪潮组织了SPEC的制订以及UBB的设计;第三,浪潮首先发布了业界第一款符合OCP标准21英寸的基于OAM的系统。


图文和视频了解OCP之OAI/OAM_百度_02


浪潮 21英寸计算节点+OAM系统展示

图文和视频了解OCP之OAI/OAM_基础设施_03


备注:上图来自 浪潮信息首席系统架构师 王磊


浪潮联合了如英特尔、燧原科技、寒武纪等厂商,在整个系统上进行了适配,从而推动了OAI和OAM系统生态的建设。


5、视频回放

下面我们通过两个视频加深了解:

1)OAI在AI技术标准化、产业化中的关键价值

本视频来自于OCP China Day 2020(2020年11月),

由FaceBook Whitney Zhao和百度Tianyi Gao分享


图文和视频了解OCP之OAI/OAM_基础设施_04


2)OAI在AI技术标准化、产业化中的关键价值

本视频来自于OCP China Day 2020(2020年11月),

由浪潮 王磊、百度 黎世勇、燧原 江斌分享图文和视频了解OCP之OAI/OAM_基础设施_05

对开放计算感兴趣的,请持续关注微信公众号 乐生活与爱IT

后续还会陆续转载或原创发表更多精彩的文章或视频。

另外,今年7月27日在北京会有一场精彩的开放计算大会,共有近40场主题演讲,包括主论坛和4个分论坛。


欢迎各位朋友指正