目录

关于正常安装先不写了....

非root用户安装cuda与cudnn(仅供参考)

介绍(显卡驱动,cuda,cudnn,深度学习库的关系)

准备工作

安装包下载

下载CUDA

cuDNN下载

安装CUDA和cuDNN

安装CUDA(参考文章的作者写的很详细,其他都比较简略)

修改环境变量

安装 cuDNN

参考文章


个人经历,如果在远程连接的服务器不能调用gpu,且感觉自己的配置没有错误,重启服务器!

关于正常安装先不写了....

实际也不是很难.....

非root用户安装cuda与cudnn(仅供参考)

这个方法我尝试过,但由于当时服务器本身的原因未能成功配置,之后也没有验证过。

emmmm,清明节假期在宿舍连接不到服务器,就....拿来主义了😥

服务器上管理员已安装好显卡驱动或已安装的CUDA版本无法满足自己要求(要么太高要么太低),与自己需要的TensorFlow或者Pytorch版本不兼容,可以尝试以下方法。

介绍(显卡驱动,cuda,cudnn,深度学习库的关系)

四者从底层(硬件)到上层(软件)的顺序是:驱动->cuda(->cudnn)->深度学习库。cudnn加括号是因为cudnn的版本和cuda版本是对应的,深度学习库的版本依赖往往是直接看cuda版本,而不需要关注cudnn。

显卡驱动是告诉系统如何调用显卡这个硬件,驱动版本是向下兼容的。新的驱动仍然支持旧的cuda,但旧的驱动就无法支持新版本的cuda。

cuda是构筑在显卡驱动之上的工具库(toolkit),cudnn是构筑在cuda之上的深度学习相关的工具库。因此,不管是做graphics(3D渲染等)还是搞深度学习,想要使用显卡都必须安装cuda,但做graphics的朋友就不需要安装cudnn。

准备工作

输入nvidia-smi查看自己的显卡驱动版本以及支持的最大CUDA版本

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习

进入英伟达提供的GPU驱动和CUDA对应关系,确认自己目前的GPU驱动是否符合自己要安装的CUDA版本,符合就进入下一步,不符合就安装更加高级的驱动。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_02

输入uname -a与cat /proc/version查看系统的信息,方便匹配对应的CUDA。可以看到系统是Linux,Ubuntu的内核,64位(x86_64)的系统,Ubuntu版本号为18.04。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_03

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_04

安装包下载

下载CUDA

进入英伟达CUDA下载页面,点击Download Now可以看到最新版本。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_05

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_06

 以下载10.2为例,寻找10.2版本。 

A100服务器上安装pytorch GPU 服务器配置pytorch环境_pytorch_07

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_08

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run

在服务器上进行下载,也可以选择在浏览器中输入wget后面的网址,然后在本地进行下载再上传至服务器。

cuDNN下载

通过网址下载CUDNN,这个下载需要注册账号(简单几步注册登录即可),登录以后,选择合适的CUDA版本对应的CUDNN并选择CUDNN Library for Linux,下载以后将文件后缀名改为.tgz后上传至服务器。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_09

 

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_10

安装CUDA和cuDNN

此时服务器中已经有了CUDA和cuDNN的安装包

A100服务器上安装pytorch GPU 服务器配置pytorch环境_pytorch_11

安装CUDA(参考文章的作者写的很详细,其他都比较简略)

1.给cuda可执行权限

chmod +x cuda_10.2.89_440.33.01_linux.run

2. 运行run文件

sh cuda_10.2.89_440.33.01_linux.run

3. 通过键盘方向键(↑,↓)和Enter键可以进行选择和进入(确定)。选择Continue并进入

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_12

4. 输入accept进入

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_13

5. 利用上下键与Enter勾选对话框,只安装CUDA Toolkit。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_14

6. 选择Options并进入,然后我们需要修改Toolkit Options 、Library install path这两项的路径。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_15

7. 修改Toolkit Options路径,选择Change Toolkit Install Path

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_16

8. 将默认路径修改至个人目录下,点击Enter确认

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_17

9. 将下面的选项取消选定,选择Done,确认退出

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_18

10. 选择Library install path (Blank for system default)

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_19

11. 添加之前一样的路径并Enter确认退出

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_20

12. 选择Done返回上一层目录,修改路径完成,选择Install开始安装

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_21

13. 出现如下所示的安装信息则说明安装成功

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_22

修改环境变量

1.输入vim ~/.bashrc进行环境变量的修改;

2.添加一下信息(每个人的路径是不同的,我的是/home/zhaoqc/cuda-10.2)并保存退出。

export CUDA_HOME=$CUDA_HOME:/home/zhaoqc/cuda-10.2
export PATH=$PATH:/home/zhaoqc/cuda-10.2/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/zhaoqc/cuda-10.2/lib64

3. 输入source ~/.bashrc

安装 cuDNN

 1.解压cuDNN,输入以下命令进行解压

tar -zxvf cudnn-10.2-linux-x64-v8.0.0.39.tgz

2. 此时当前目录下回出现一个./cuda的文件夹

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_23

3. 复制文件到CUDA安装目录

cp cuda/include/cudnn.h ../cuda-10.2/include/
cp cuda/lib64/libcudnn* ../cuda-10.2/lib64/

4. 修改权限,cudnn安装完成

chmod a+r ../cuda-10.2/include/cudnn.h ../cuda-10.2/lib64/libcudnn*

查看是否安装成功,输入nvcc -V

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_24

参考文章

显卡驱动,cuda,cudnn,深度学习库的关系

非root用户安装cuda与cudnn