Docker Desktop怎样设置显卡运行AI模型 docker调用显卡

转载

mob64ca1404ed65 2024-08-06 12:04:29

文章标签 docker pytorch python Docker 文章分类 Docker 云计算

30系列显卡使用Pytorch1.60及Docker下的GUI程序可视化

文章目录

30系列显卡使用Pytorch1.60及Docker下的GUI程序可视化

背景
解决方案

方案一
方案二

Docker容器内GUI程序的外部显示

背景

由于项目要求，需要训练并运行一个基于Pytorch1.6的抓取框架。本机实际安装的显卡为3060相关配置如下。

nvidia-smi
Thu Sep 22 10:49:23 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.65.01    Driver Version: 515.65.01    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  Off  | 00000000:01:00.0  On |                  N/A |
| N/A   56C    P8    16W /  N/A |   1063MiB /  6144MiB |     11%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

首先尝试使用conda进行虚拟环境的配置，但配置时发现，pytorch1.6对应的官方binaries CUDA版本为10.2，本机使用显卡3060，最低支持版本为cuda11.0。该问题导致pytorch无法获得并使用显卡进行运算，在python会话中进行测试会得到如下错误信息：

python
Python 3.8.13 (default, Mar 28 2022, 11:38:47) 
[GCC 7.5.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import python
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'python'
>>> import torch as tc
>>> tc.cuda.get_device_name()
/home/xxxxxxx/miniconda3/envs/grasp/lib/python3.8/site-packages/torch/cuda/__init__.py:125: UserWarning: 
NVIDIA GeForce RTX 3060 Laptop GPU with CUDA capability sm_86 is not compatible with the current PyTorch installation.
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70 sm_75.
If you want to use the NVIDIA GeForce RTX 3060 Laptop GPU GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/

  warnings.warn(incompatible_device_warn.format(device_name, capability, " ".join(arch_list), device_name))
'NVIDIA GeForce RTX 3060 Laptop GPU'
#查看torch对应的cuda版本
>>> tc.version.cuda
'10.2'

也就是说，不管是pip还是conda中原生的pytorch1.6无法直接在30系列显卡上使用，于是开始寻找解决办法。

解决方案

方案一

参考https://discuss.pytorch.org/t/pytorch-with-cuda-11-compatibility/89254中给出的解释，py1.6官方binary没有集成对11.0的支持，但相关源码的PR中已经合并了对cuda11.0支持的部分，所以直接从源码编译即可。该方法理论上可以直接解决问题但我嫌有点麻烦就没试，准备实在找不到别的方法再这么搞。

方案二

参考

使用nvidia官方优化过的nvidia-docker对应的深度学习框架镜像。根据https://docs.nvidia.com/deeplearning/frameworks/support-matrix/index.html该官方文档查看复合需求的docker image版本。查看到对应11.0和pytorch1.6的支持版本是20.06，该网站大部分镜像都已经支持安培架构的显卡（30系列），而且结合docker的形式也方便在不同机器上进行部署。

适用如下命令拉去对应版本的docker image（先装docker，网上教程一大把），

docker pull nvcr.io/nvidia/pytorch:20.06-py3

此时电脑里就有这个image了，使用如下命令打开docker即可,并测试其pytorch版本。

docker images # 查看镜像ID
docker run -it --gpus all --name ${CONTAINER NAME} -v 本地文件路径1：镜像中的文件路径1 -v 本地文件路径2：镜像中的文件路径2 --network host ${IMAGE ID} /bin/bash
# 其中${CONTAINER NAME} 容器名字
# -v 表示需要挂载的文件/文件夹

# 启动后会有如下警告，不影响，实际可以用
WARNING: Detected NVIDIA NVIDIA GeForce RTX 3060 Laptop GPU GPU, which is not yet supported in this version of the container
ERROR: No supported GPU(s) detected to run this container

NOTE: MOFED driver for multi-node communication was not detected.
      Multi-node communication performance may be reduced.

# 在docker bash中进入python并验证pytorch
root@xxxxxxx-Alienware-x14:/workspace# python
Python 3.6.10 |Anaconda, Inc.| (default, Mar 23 2020, 23:13:11) 
[GCC 7.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch as tc
>>> tc.__version__
'1.6.0a0+9907a3e'
>>> tc.cuda.get_device_name()
'NVIDIA GeForce RTX 3060 Laptop GPU'
>>> tc.version.cuda
'11.0'

可以看到该容器内的pytorch版本为定制过后的1.6版本，对应的cuda为11.0，且能正常识别到显卡和食用显卡，没有先前的报错，此时配置完成。按照正常linux流程在容器内运行相应代码即可。

Docker容器内GUI程序的外部显示

代码中有open3d的可视化内容，正常运行情况下容器内可以不跑带gui的程序，但调试的时候还是得有相应的可视化来方便调试。查了一万种方法，网上说的方法都试了，全都失败了。但突然在组合了几种解决方案后就可以了，至于为啥么。。算了能用就行。（老狗の印）

docker image配置完成后在运行docker时进行如下的参数配置（附带一部分解释）

docker run -it \
	--rm \
	# 进行一些显示相关的设置，宿主机显示器DISPLAY环境变量为1
	--env="NVIDIA_DRIVER_CAPABILITIES=all" \       
	--env="DISPLAY=$DISPLAY" \
	--env="QT_X11_NO_MITSHM=1" \
	--volume="/tmp/.X11-unix:/tmp/.X11-unix:rw" \
	# 使用（所有）gpu
	--gpus all \
	# container 获得root权限，读取接口文件系统
	--privileged \
	# 设置网络配置（这个得要，跟Xserver映射有关）
	--network host \
	# 启动的 container 名字
	--name grasp \
	# 和宿主共享内存
	--ipc host \
	# 一些显示GUI效果的变量，感觉没啥用不加也可以
	-e GDK_SCALE \
	-e GDK_DPI_SCALE \
	# 镜像名字
	graspnet:v1.0 \
	# 开个bash
	/bin/bash

这时候打开的docker应该就可以吧GUI的进程显示到宿主机上了，测试打开rviz（正常ros怎么装就在容器里怎么装，装完记得更新镜像）可以正常显示，即成功了。

Docker Desktop怎样设置显卡运行AI模型 docker调用显卡_docker