【踩坑】修复多GPU通信时all_reduce/broadcast时间不一致的问题

原创

小锋学长生活大爆炸 2024-06-26 16:12:01 博主文章分类：爬坑之旅 ©著作权

©著作权归作者所有：来自51CTO博客作者小锋学长生活大爆炸的原创作品，请联系作者获取转载授权，否则将追究法律责任

背景介绍

原因解释

问题修复

背景介绍

按照网上的说法，计时使用了torch.cuda.Event(enable_timing=True)和torch.cuda.synchronize()，但跑出来的时间相差还是很大。

【踩坑】修复多GPU通信时all_reduce/broadcast时间不一致的问题_人工智能

其实出现这个问题，是因为我们忽略了一个事实，而这个在网上相关的文章里都没有提：

作用：这个函数会使当前设备（GPU）上的所有先前的异步CUDA操作完成，是操作同步方法。也就是说，它会等待设备上所有的CUDA内核、内存复制、CUDA流操作等完成。
使用场景：通常在计时或调试时使用，确保所有的GPU操作在继续执行代码之前都已完成。
作用范围：仅在当前设备上起作用，并不涉及跨设备或跨进程的同步。

作用：这个函数会在所有参与分布式计算的进程上进行同步，是数据同步操作。只有当所有进程都到达这个屏障时，所有进程才会继续执行后续代码。这确保了所有进程在某个点上同步。
使用场景：在多进程分布式计算中使用，用于确保所有进程在某个同步点上处于一致状态。
作用范围：在所有参与同一分布式组的进程之间同步。

那么就很明显了，对于GPU之间的通信而言，只使用synchronize实际上是不够的，因为他只能保证当前GPU完成了CUDA操作。所以要保证GPU间同步，我们还得加barrier。

把计时代码改成类似这种的即可。注意，由于网上对此的相关资料较少，如果是为了计时是可以这样搞，正常执行应该不需要加。我也不是很确定这样是否合理，请大家自行选择哈。

dist.barrier()
start_event.record()

# xxxxxxxx

dist.barrier()
end_event.record()
torch.cuda.synchronize()

这样的计时，两者就很接近了：

【踩坑】修复多GPU通信时all_reduce/broadcast时间不一致的问题_人工智能_02

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯