深度学习显卡的选择:
1、选择算力在5.0以上的
在GPU算力高于5.0时,可以用来跑神经网络。算力越高,计算能力越强。
2、尽量选择大显存
显存越高,意味着性能越强悍。特别是对于CV领域。
3、GPU几个重要的参数
显存带宽:代表GPU芯片每秒与显存交换的数据大小,这个值等于显存位宽*工作频率,单位为GB/秒,该值越大,代表GPU性能越好。
显存位宽:代表GPU芯片每个时钟周期内能从GPU显存中读取的数据大小,这个值越大代表GPU芯片和显存之间数据交换的速度越快,性能越好。
GPU工作频率:代表GPU每秒钟工作次数,单位为MHz,跟CPU的频率类似。该值越大代表性能越好。
CUDA核心数量:CUDA核心数量越大越好,
显卡算力:
显卡类别 | 显存 | Cuda核心数 | 显存位宽(bit) | 显卡支持的算力 | CV | NLP |
3090ti | 24G | 10752 | 384 | 8.6 | √ | √ |
(升腾910)~A100 |
|
|
| ~8.0 |
|
|
(T4) | 16G | 2560 | 256 | 7.5 | √ | √ |
升腾910NPU) | 32G |
|
| - | √(部分限制) | × |
(A40) | 48G | 10752 | 384 |
| √ | √ |
(RTX Titan) | 24G | 4608 | 384 | 7.5 | √ | √ |
(V100) | 32G | 5120 | 4096 | 7.0 | √ | √ |
显卡类别 | 性能 |
3090ti
| 显卡 :3090ti 目前英伟达旗下性能排行第三。
支持NLP 支持CV |
超聚变atlas800-9000(升腾910) | 相关资料较少。与英伟达A100算力相当 A100显存:40G/80G
|
超聚变G5500(T4) | 显卡:Tesla T4
支持NLP 支持CV |
华为atlas800-9000(升腾910NPU)
| 显卡:升腾910NPU 显存:32G
Atlas 800 训练服务器(型号:9000)是基于华为鲲鹏920+昇腾910处理器的AI训练服务器,具有最强算力密度、超高能效与高速网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练。
NLP:目前npu对LSTM与GRU支持不行,不建议使用LSTM和GRU网络在npu上运行。 CV:视觉精度会有所损失,并且在训练和推理过程中加载会缓慢,不支持部分pytorch函数。 |
宝德pr4906(A40)
| A40显卡 与 NVIDIA 上一代旗舰 V100 GPU 相当。
支持NLP 支持CV |
宝德pr2910(T4)
| 同上 T4 |
宝德4906(RTX Titan) | RTX Titan
支持NLP 支持CV |
G5500-560(V100)
| V100 NVIDIA® V100 Tensor Core GPU 可在单个 GPU 中提供近 32 个 CPU 的性能, V100 已在业界首个 AI 基准测试 MLPerf 中拔得头筹,以出色的成绩证明了其是具有巨大可扩展性和通用性的当今世界上强大的计算平台。
支持NLP 支持CV
|