报错截图
报错原因
有部分参数初始化了,但是并没有在模型的foward过程中使用,因此没有梯度无法反传参数更新。
解决方法
- 如果确实某些网络结构是不需要使用的,那我们就直接去除即可,但首先我们需要debug出哪些参数和结构是没有被用到了,然后针对性去除即可:
找出参数
- 只需要在你正常的分布式命令前加入
TORCH_DISTRIBUTED_DEBUG=DETAIL
即可:
运行后的得到具体没有梯度的参数:
注释掉这些网络结构即可~
有部分参数初始化了,但是并没有在模型的foward过程中使用,因此没有梯度无法反传参数更新。
TORCH_DISTRIBUTED_DEBUG=DETAIL
即可:运行后的得到具体没有梯度的参数:
注释掉这些网络结构即可~
'&' token 解决方法 donoot 于 2018-05-01 13:34:26 发布 96045 收藏 68分类专栏
模型常见报错RuntimeError: CUDA out of memory,可以尝试多种解决方案
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M