如何多GPU一起运行

转载

技术极客传奇 2024-09-26 08:40:44

文章标签 如何多GPU一起运行 tensorflow 英伟达环境变量 文章分类 游戏开发

最近在实习，老板说让我把tensorflow2.4.0的gpu给配置好，方便我训练，就这，我都配置了大概四五次，第五次成功了，记录一下前几次的经历：

看网上各种参差不齐的教程，说用cudn10.0版本的成功了，于是乎，我就直接装了cuda10.0以及与之对应的cudnn，但是装上去发现并没有什么用，训练的时候总是会出现某一个.dll找不到。这其实就是没有配置好的原因。下面来说说我最终配置tensorflow2.4 +cuda11.0 +cudnn 8.0.5版本的

首先第一步肯定是要看你的电脑是否支持英伟达的显卡，并确定你的英伟达的显卡的驱动支持的cuda在11.0版本以上，可以通过命令行查看：nvidia-smi

如何多GPU一起运行_tensorflow

因为tensorflow2.4版本目前需要cuda11.0以上的支持，我也不知道为什么。如果不支持，一般360驱动助手可以自动更新到最新版本，对了，好像还要求英伟达的显卡的算力在3.5以上，我用的是GTX960的，算力是5.2，可以，关于算力的查看可以自行百度，一百度就出来了。

然后知道了你的电脑显卡驱动支持就可以进行我们的文件下载准备了

我这里直接给大家放了百度网盘的链接，大家自己取：

这个是cuda11.0的链接

链接：https://pan.baidu.com/s/1olNJfBnTDrw_7S3NYnd0sw

提取码：nump

这个是cudnn 8.0.5的链接：

链接：https://pan.baidu.com/s/10ZBLU7UL7srgdet1wtriUw

提取码：nump

直接提取到本地下载到自己的电脑上，然后选择cuda11.0进行安装：

一路安装即可。这里没什么特别需要注意的，好像有一个选择安装模式的建议选择自定义模式。其他的没有什么了。

然后再说说关于cudnn的问题，先解压缩到本地，

如图：

如何多GPU一起运行_环境变量_02

然后在C盘根目录下新建一个文件夹，随便起一个英文名，比如“tools”，将这些东西拖过去：

如何多GPU一起运行_环境变量_03

然后将bin目录的路径添加到系统环境变量的path中。到目前为止，你已经完成一大半的工作了，接下来就是安装tensorflow2.4了，我使用的是anaconda

进入anaconda的命令行：

先新建一个环境：

conda create --name=tensorflow2.4.0 pythnotallow=3.8

然后进入：

conda activate tensorflow2.4.0

安装：

conda install tensorflow-gpu==2.4.0

这是一条简短的命令，但是这样下载会慢，我建议去网上搜一个镜像，豆瓣的或者阿里云的都可以下载都会很快。

安装完之后就可以了。

但是我当时为了防止出现那种某个dll找不到的问题，我就把刚才我们cuda里面bin目录下的东西都放在了anaconda的虚拟环境vens下的刚才我们创建的环境的site-packets下面了。重要的是把CUDA的安装目录添加到系统环境变量path中。我的是C：/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v11.0/bin。这个相当重要！

今天晚上训练的一个retinaface网络，gpu真香！！！！！

如何多GPU一起运行_tensorflow_04