欢迎关注我的公众号 [极智视界],获取我的更多笔记分享
大家好,我是极智视界,本文介绍一下 昇腾新推出的 Atlas300 系列新卡。
2022 年,昇腾推出了新一代 Atlas300 系列卡,场景覆盖全面,包括 推理卡 ==> Atlas 300I Duo、Atlas 300I Pro,视频解析卡 ==> Atlas 300V Pro,训练卡 ==> Atlas 300T Pro。基本都会是对应上一代的升级:
- 推理:(原有 升级) Atlas 300I ==> (up up) Atlas 300I Duo、Atlas 300I Pro;
- 视频解析:(新增) Atlas 300V Pro;
- 训练:(原有 升级) Atlas 300T ==> (up up) Atlas 300T Pro;
文章目录
1 推理卡系列
差不多两年前,昇腾推出了第一代 半高半长 的推理卡 Atlas 300I 以对标 Nvidia T4,从算力上来看 Atlas 300I 会逊色一截 (Atlas 300I 单卡 int8 算力为 88 TOPS,Nvidia T4 单卡 int8 算力为 130 TOPS,但跑实际网络的性能并不一定是这样),Atlas 300I 长这样:
那时的 Atlas 300I 推理卡分型号:3000/3010,意思是区分 CPU处理器 是 ARM 的还是 X86 的,两者不能互通,也就是说 你在华为自家鲲鹏机器上能用的卡,插在英特尔机器上是不能用的。而现在的 Atlas 300I Pro 是能很好的做到兼容 ARM 和 X86 ( 灵活度高了 )。
我们知道,Atlas 300I 卡内置 4个 device,芯片为 昇腾310,而 Atlas 300I Pro 直接升级到了 昇腾710,这也导致推理卡算力从原来的 int8 88 TOS -> int8 140 TOS (超越了 Nvidia T4,注: 这其实拿T4来比就不太公平了,现在T4都要停产了
)。在 工具链 (CANN 等) 方面,当然也在不断的升级,比如:以前的工具链前端是不直接支持 pytorch 的,这样灵活度会降低很多,因为现在用 pytorch 的人实在太多了,而现在早已支持 pytorch -> om 的部署路线 (记得前几年去华为参加讨论的时候 还专门讨论过这个问题,当时的做法是 必须先把 pytorch 模型先进行一次 模型转换,转成如 caffe 这样的 友好模型,然后可以转 om 部署,也可以再走一系列操作,如 模型小型化啊、调优啊… 再到转 om 部署)。
这里实际拿 Atlas 300I 和 Atlas 300I Pro 对比会更有意义,因为这两个都是 半高半长卡,而 Atlas 300I Duo 则是 全高全长卡, 因缺乏历史对比对象,这里暂且把它放在 Atlas 300I 和 Atlas 300I Pro 一起进行对比好了。下面是 Atlas 300I、 Atlas 300I Pro、Atlas 300I Duo 的一些主要性能参数对比:
指标 | Atlas 300I | Atlas 300I Pro | Atlas 300I Duo |
芯片 | 昇腾310 | 昇腾710 | 昇腾710 |
device 个数 | 4 个 | 4 个 | 8 个 |
算力 int8 | 88 T | 140 T | 280 T |
算力 fp16 | 44 TF | 70 TF | 140 TF |
显存 | LPDDR4 32 GB | LPDDR4 24 GB | LPDDRX 96 GB |
视频解码 | 80 路 | 126 路 | 256 路 |
视频编码 | 4 路 | 24 路 | 48 路 |
功耗 | 67 W | 72 W | 150 W |
可以看到 Atlas 300I Duo 指标基本是 Atlas 300I Pro 的 两倍,而 Atlas 300I pro 可以看做是 Atlas 300I 的 全方位升级 。
推理卡 讲完了,看看 Duo 全高全长卡 长啥样
2 视频解析卡
新增 视频解析卡 Atlas 300V Pro,先看参数再说吧:
指标 | Atlas 300V Pro |
芯片 | 昇腾710 |
device 个数 | 4 个 |
算力 int8 | 140 T |
算力 fp16 | 70 FT |
显存 | LPDDR4X 48 GB |
视频解码 | 126 路 |
视频编码 | 24 路 |
功耗 | 72 W |
仔细一看,会发现个很有意思的现象:Atlas 300V Pro 指标中除了 显存 好像 其他都和 Atlas 300I Pro 一样啊,你没看错,就是这样 ^ ^ 。Atlas 300V Pro 就是专门为 大容量、多路数 视频解析场景而生的,这种场景在 安防 领域十分常见。
3 训练卡
之前的训练卡是 Atlas 300T,现在升级到了 Atlas 300T Pro。Atlas 300T Pro 训练卡 (型号:9000) 是基于昇腾 910 AI处理器,为数据中心提供强劲算力的 AI 加速卡,单卡可提供超高 280 TFLOPS fp16 算力,能够加快深度学习训练进程。还是来看 新、老卡的参数对比:
指标 | Atlas 300T | Atlas 300T Pro |
芯片 | 昇腾910 | 昇腾910 |
算力 fp16 | 220 TF | 280 TF |
显存 | 32 GB | 32 GB |
功耗 | 300 W | 300 W |
可以看到 Atlas 300 训练卡的升级主要体现在 算力,从原来的 单卡 fp16 220TF 算力 -> 单卡 fp16 280TF,且能保证一样的功耗消耗,这样一来一去,显卡的能效比就更强悍了。关于 能效比 的分析,同样也能适用于 推理卡。最后上张图呗:
好了,以上分享了 昇腾新推出的 Atlas300 系列新卡的一些对比,希望我的分享能对你的学习有一点帮助。
微信公众号【极智视界】