前言

 

问题描述

查看nvidia-smi,发现显存占比很高,但是GPU-Util(GPU利用率)很低,在3%、7%、11%等几个参数之间反复跳动。

watch -n 0.5 nvidia-smi

也就是显卡并没有完全利用起来,导致训练很慢。

原因分析

GPU内存占用率(memory usage)

 

GPU内存利用率(volatile GPU-Util)

 

 

参考

1. GPU显存占满利用率GPU-util为0_吨吨不打野的