A100服务器上安装pytorch GPU 服务器配置pytorch环境

转载

mob64ca1412ee79 2024-04-11 06:55:08

文章标签 pytorch CUDA 服务器深度学习 文章分类 PyTorch 人工智能

关于正常安装先不写了....

非root用户安装cuda与cudnn(仅供参考)

介绍（显卡驱动，cuda，cudnn，深度学习库的关系）

准备工作

安装包下载

下载CUDA

cuDNN下载

安装CUDA和cuDNN

安装CUDA（参考文章的作者写的很详细，其他都比较简略）

修改环境变量

安装 cuDNN

参考文章

个人经历，如果在远程连接的服务器不能调用gpu，且感觉自己的配置没有错误，重启服务器！

关于正常安装先不写了....

实际也不是很难.....

非root用户安装cuda与cudnn(仅供参考)

这个方法我尝试过，但由于当时服务器本身的原因未能成功配置，之后也没有验证过。

emmmm，清明节假期在宿舍连接不到服务器，就....拿来主义了😥

服务器上管理员已安装好显卡驱动或已安装的CUDA版本无法满足自己要求（要么太高要么太低），与自己需要的TensorFlow或者Pytorch版本不兼容，可以尝试以下方法。

介绍（显卡驱动，cuda，cudnn，深度学习库的关系）

四者从底层（硬件）到上层（软件）的顺序是：驱动->cuda（->cudnn）->深度学习库。cudnn加括号是因为cudnn的版本和cuda版本是对应的，深度学习库的版本依赖往往是直接看cuda版本，而不需要关注cudnn。

显卡驱动是告诉系统如何调用显卡这个硬件，驱动版本是向下兼容的。新的驱动仍然支持旧的cuda，但旧的驱动就无法支持新版本的cuda。

cuda是构筑在显卡驱动之上的工具库（toolkit），cudnn是构筑在cuda之上的深度学习相关的工具库。因此，不管是做graphics（3D渲染等）还是搞深度学习，想要使用显卡都必须安装cuda，但做graphics的朋友就不需要安装cudnn。

准备工作

输入nvidia-smi查看自己的显卡驱动版本以及支持的最大CUDA版本

进入英伟达提供的GPU驱动和CUDA对应关系，确认自己目前的GPU驱动是否符合自己要安装的CUDA版本，符合就进入下一步，不符合就安装更加高级的驱动。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_02

输入uname -a与cat /proc/version查看系统的信息，方便匹配对应的CUDA。可以看到系统是Linux，Ubuntu的内核，64位（x86_64）的系统，Ubuntu版本号为18.04。

安装包下载

下载CUDA

进入英伟达CUDA下载页面，点击Download Now可以看到最新版本。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_05

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_06

以下载10.2为例，寻找10.2版本。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_pytorch_07

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_08

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run

在服务器上进行下载，也可以选择在浏览器中输入wget后面的网址，然后在本地进行下载再上传至服务器。

cuDNN下载

通过网址下载CUDNN，这个下载需要注册账号（简单几步注册登录即可），登录以后，选择合适的CUDA版本对应的CUDNN并选择CUDNN Library for Linux，下载以后将文件后缀名改为.tgz后上传至服务器。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_09

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_10

安装CUDA和cuDNN

此时服务器中已经有了CUDA和cuDNN的安装包

A100服务器上安装pytorch GPU 服务器配置pytorch环境_pytorch_11

安装CUDA（参考文章的作者写的很详细，其他都比较简略）

1.给cuda可执行权限

chmod +x cuda_10.2.89_440.33.01_linux.run

2. 运行run文件

sh cuda_10.2.89_440.33.01_linux.run

3. 通过键盘方向键（↑，↓）和Enter键可以进行选择和进入（确定）。选择Continue并进入

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_12

4. 输入accept进入

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_13

5. 利用上下键与Enter勾选对话框，只安装CUDA Toolkit。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_14

6. 选择Options并进入，然后我们需要修改Toolkit Options 、Library install path这两项的路径。

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_15

7. 修改Toolkit Options路径，选择Change Toolkit Install Path

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_16

8. 将默认路径修改至个人目录下，点击Enter确认

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_17

9. 将下面的选项取消选定，选择Done，确认退出

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_18

10. 选择Library install path （Blank for system default）

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_19

11. 添加之前一样的路径并Enter确认退出

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_20

12. 选择Done返回上一层目录，修改路径完成，选择Install开始安装

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_21

13. 出现如下所示的安装信息则说明安装成功

A100服务器上安装pytorch GPU 服务器配置pytorch环境_CUDA_22

修改环境变量

1.输入vim ~/.bashrc进行环境变量的修改；

2.添加一下信息（每个人的路径是不同的，我的是/home/zhaoqc/cuda-10.2）并保存退出。

export CUDA_HOME=$CUDA_HOME:/home/zhaoqc/cuda-10.2
export PATH=$PATH:/home/zhaoqc/cuda-10.2/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/zhaoqc/cuda-10.2/lib64

3. 输入source ~/.bashrc

安装 cuDNN

1.解压cuDNN，输入以下命令进行解压

tar -zxvf cudnn-10.2-linux-x64-v8.0.0.39.tgz

2. 此时当前目录下回出现一个./cuda的文件夹

A100服务器上安装pytorch GPU 服务器配置pytorch环境_深度学习_23

3. 复制文件到CUDA安装目录

cp cuda/include/cudnn.h ../cuda-10.2/include/
cp cuda/lib64/libcudnn* ../cuda-10.2/lib64/

4. 修改权限，cudnn安装完成

chmod a+r ../cuda-10.2/include/cudnn.h ../cuda-10.2/lib64/libcudnn*

查看是否安装成功，输入nvcc -V

A100服务器上安装pytorch GPU 服务器配置pytorch环境_服务器_24

参考文章

显卡驱动，cuda，cudnn，深度学习库的关系

非root用户安装cuda与cudnn

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：zuul支持spring版本 springcloud zuul详解

下一篇：Android 一个布局里的视图等比例缩放 android 百分比布局

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯