pytorch每次迭代显存增加 pytorch减少显存

转载

mob64ca140b0bc8 2023-08-09 10:46:18

文章标签 pytorch每次迭代显存增加 java python 人工智能计算机视觉 文章分类 PyTorch 人工智能

一提问

Pytorch有什么节省内存（显存）的小技巧？

在用pytorch实现一个tensorflow project的时候遇到了GPU显存超出 (out of memory) 的问题，不知道有什么优化方法。

高质量回答

Lyken

愿以有涯随无涯

咦，大家都没看过陈天奇的 Training Deep Nets with Sublinear Memory Cost （https://arxiv.org/abs/1604.06174）吗？

训练 CNN 时，Memory 主要的开销来自于储存用于计算 backward 的 activation，一般的 workflow 是这样的

pytorch每次迭代显存增加 pytorch减少显存_java

Vanilla backprop

对于一个长度为 N 的 CNN，需要 O(N) 的内存。这篇论文给出了一个思路，每隔 sqrt(N) 个 node 存一个 activation，中需要的时候再算，这样显存就从 O(N) 降到了 O(sqrt(N))。

pytorch每次迭代显存增加 pytorch减少显存_人工智能_02

Checkpointed backprop

对于越深的模型，这个方法省的显存就越多，且速度不会明显变慢。

pytorch每次迭代显存增加 pytorch减少显存_java_03

PyTorch 我实现了一版，有兴趣的同学可以来试试

https://github.com/Lyken17/pytorch-memonger

郑哲东

计算机科学博士在读

在不修改网络结构的情况下, 有如下操作：

1. 同意 @Jiaming，尽可能使用inplace操作，比如relu 可以使用 inplace=True 。一个简单的使用方法，如下：

def inplace_relu(m):
    classname = m.__class__.__name__
    if classname.find('ReLU') != -1:
        m.inplace=True


model.apply(inplace_relu)

2. 进一步，比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace，在bp时再重新计算。使用到了pytorch新的checkpoint特性，有以下两个代码。由于需要重新计算bn后的结果，所以会慢一些。

pytorch每次迭代显存增加 pytorch减少显存_pytorch每次迭代显存增加_04

3. 每次循环结束时删除 loss，可以节约很少显存，但聊胜于无。可见如下issue：

Tensor to Variable and memory freeing best practices：

https://discuss.pytorch.org/t/tensor-to-variable-and-memory-freeing-best-practices/6000/2

4. 使用float16精度混合计算。我用过 @NVIDIA英伟达apex，很好用，可以节约将近50%的显存，但是要小心一些不安全的操作如 mean和sum，溢出fp16。

NVIDIA/apex（https://github.com/NVIDIA/apex）

pytorch每次迭代显存增加 pytorch减少显存_python_05

补充：最近我也尝试在我CVPR19的GAN模型中加入fp16的训练，可以从15G的显存需求降到约10G，这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波：

https://github.com/NVlabs/DG-Net

5. 对于不需要bp的forward，如validation 请使用 torch.no_grad , 注意model.eval（) 不等于 torch.no_grad() 请看如下讨论：

https://github.com/NVlabs/DG-Net

6. torch.cuda.empty_cache() 这是del的进阶版，使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。

How can we release GPU memory cache?

https://discuss.pytorch.org/t/how-can-we-release-gpu-memory-cache/1453

另外，会影响精度的骚操作还有：

把一个batchsize=64分为两个32的batch，两次forward以后，backward一次。但会影响 batchnorm等和batchsize相关的层。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：开发者平台架构图开发者交流平台有哪些

下一篇：java任务调度器 java线程调度器

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯