autodl深度学习服务器cpu使用率100怎么办深度计算服务器

转载

ghpsyn 2024-08-08 08:40:22

文章标签 深度学习分布式服务器数据计算性能 文章分类 深度学习人工智能

深度学习入门（三十九）计算性能——分布式训练、参数服务器

前言
计算性能——分布式训练、参数服务器

课件（分布式训练）

分布式计算
GPU机器架构
计算一个小批量
同步SGD
性能
性能的权衡
实践的建议
总结

教材（参数服务器）

1 数据并行训练
2 环同步（Ring Synchronization)
3 多机训练
4 键值存储
5 小结

前言

核心内容来自博客链接1 博客连接2希望大家多多支持作者
本文记录用，防止遗忘
参数服务器未完成，感觉暂时用不到

计算性能——分布式训练、参数服务器

课件（分布式训练）

分布式计算

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_深度学习

GPU机器架构

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_服务器_02

计算一个小批量

每个计算服务器读取小批量中的一块

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_分布式_03

进—步将数据切分到每个GPU上

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_数据_04

每个worker从参数服务器那里获取模型参数

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_计算性能_05

复制参数到每个GPU上

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_服务器_06

每个GPU计算梯度

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_计算性能_07

将所有GPU上的梯度求和

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_分布式_08

梯度传回服务器

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_计算性能_09

每个服务器对梯度求和，并更新参数

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_分布式_10

同步SGD

这里每个worker都是同步计算一个批量，称为同步SGD
假设有n个GPU，每个GPU每次处理b个样本，那么同步SGD等价于在单GPU运行批量大小为nb的SGD
在理想情况下，n 个GPU可以得到相对个单GPU的n倍加速

性能

$autodl深度学习服务器cpu使用率100怎么办深度计算服务器_分布式_11$ 在单GPU上计算 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_服务器_12$ 个样本梯度时间
假设有 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_数据_13$ 个参数，一个worker每次发送和接收 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_数据_13$ 个参数、梯度
$autodl深度学习服务器cpu使用率100怎么办深度计算服务器_计算性能_15$ 发送和接收所用时间
每个批量的计算时间为 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_数据_16$
·选取足够大的 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_服务器_12$ 使得 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_深度学习_18$
·增加 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_服务器_12$ 或 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_计算性能_20$ 导致更大的批量大小，导致需要更多计算来得到给定的模型精度

性能的权衡

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_数据_21

实践的建议

1、使用一个大数据集
2、需要好的GPU-GPU和机器-机器
3、带宽高效的数据读取和预处理
4、模型需要有好的计算(FLOP)通讯(model size)比
lnception > ResNet > AlexNet
5、使用足够大的批量大小来得到好的系统性能
6、使用高效的优化算法对对应大批量大小

总结

1、分布式同步数据并行是多GPU数据并行在多机器上的拓展
2、网络通讯通常是瓶颈
3、需要注意使用特别大的批量大小时收敛效率
4、更复杂的分布式有异步、模型并行

教材（参数服务器）

当我们从一个GPU迁移到多个GPU时，以及再迁移到包含多个GPU的多个服务器时（可能所有服务器的分布跨越了多个机架和多个网络交换机），分布式并行训练算法也需要变得更加复杂。通过细节可以知道，一方面是不同的互连方式的带宽存在极大的区别（例如，NVLink可以通过设置实现跨6条链路的高达100GB/s的带宽，16通道的PCIe4.0提供32GB/s的带宽，而即使是高速100GbE以太网也只能提供大约10GB/s的带宽）；另一方面是期望开发者既能完成统计学习建模还精通系统和网络也是不切实际的。

1 数据并行训练

让我们回顾一下在分布式架构中数据并行的训练方法，因为在实践中它的实现相对简单，因此本节将排除其他内容只对其进行介绍。由于当今的GPU拥有大量的显存，因此在实际场景中（不包括图深度学习）只有数据并行这种并行训练策略值得推荐。下图描述了在多GPU训练节中实现的数据并行的变体。其中的关键是梯度的聚合需要在GPU 0上完成，然后再将更新后的参数广播给所有GPU。

autodl深度学习服务器cpu使用率100怎么办深度计算服务器_分布式_22

回顾来看，选择GPU 0进行聚合似乎是个很随便的决定，当然也可以选择CPU上聚合，事实上只要优化算法支持，在实际操作中甚至可以在某个GPU上聚合其中一些参数，而在另一个GPU上聚合另一些参数。例如，如果有四个与参数向量相关的梯度 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_数据_23$ ，还可以一个GPU对一个 $autodl深度学习服务器cpu使用率100怎么办深度计算服务器_服务器_24$ ）地进行梯度聚合。

2 环同步（Ring Synchronization)

3 多机训练

4 键值存储

5 小结

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Java for 循环括号中可以有两个表达式吗 for循环括号内两个分号

下一篇：2288H V3进入bios需要密码 rh2288v3 bios密码

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯