系统信息:
Ubantu18.04,GPU:Tesla P100
1. 使用Xshell 登录服务器
2. 安装nvidia驱动
根据服务器nvidia信息,下载对应版本的驱动(http://www.nvidia.com/Download/index.aspx?lang=en-us)
查看nvidia信息的命令
lspci | grep -i nvidia
将下载好的驱动文件传输到服务器文件夹下,依次输入以下两行命令,根据提示选择accept和yes,安装结束。
sudo apt-get install linux-headers-$(uname -r)
sudo sh NVIDIA*.run
3.安装CUDA toolkit
官网下载CUDA toolkit对应版本(https://developer.nvidia.com/cuda-downloads),刚开始我选择的是最新的cuda_10.0,但是TensorFlow-gpu等对应的版本还没有,所以后面一直不成功。后来我选择了比较成熟的cuda_9.0,下载的是runfile本地安装。下载好同样上传到服务器。(ps:虽然我的ubantu是18.04版本,但是这里选16.04也不影响)
根据官网的提示命令安装,或者使用命令
sudo sh cuda*.run
当出现下图所示情况时候,是CUDA的协议,按着enter往下走,一直到100%
接下来,输入accept,yes,注意接下来的一定要选择no,否则会出错(具体为什么出错暂时不知道)。
出现这样的字样,安装结束
注:如果第二行出现:toolkit installation failed using unsupported compiler,则将上文的安装命令后面添加-override即可,即
sudo sh cuda*.run -override
最后,添加环境变量
sudo vi /etc/profile
在打开的文件最后添加cuda的地址
export PATH=/usr/local/cuda-9.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64:$LD_LIBRARY_PATH
保存,退出,通过source命令使更改生效,并检查CUDA是否安装完成
source /etc/profile 使更改生效。
nvcc –V 检查CUDA
4. 安装CUDNN
官网下载和CUDA对应的版本(https://developer.nvidia.com/rdp/cudnn-download ),需要注册。然后解压文件,一次执行以下命令
tar -xvzf cudnn-9.0-linux-x64-v7.1.tgz
cd cuda
sudo cp include/cudnn.h /usr/local/cuda/include
sudo cp lib64/libcudnn.* /usr/local/cuda/lib64
CUDNN安装完成。
5. 安装anaconda
在官网下载anaconda(https://www.continuum.io/downloads)。上传到服务器,使用如下命令安装。
sudo sh Anaconda3-5.2.0-Linux-x86_64.sh
根据提示,如果出现是否添加环境变量选择yes,如果选择了no,可以之后手动添加,方法如下:
sudo vi ~/.bashrc
在最后添加:
export PATH=$PATH:/home/userName/anaconda3/bin:$PATH
保存退出,使用source使命令生效。
source ~/.bashrc
所有这些都做好之后,记得关闭Xshell连接,重新连上才能conda信息。
6.安装TensorFlow-GPU
使用pip 命令,网速不好,耐心等待。也可以直接到官网先下载好,然后本地安装(https://pypi.org/project/tensorflow-gpu/#files)
pip install tensorflow-gpu
测试:
import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))
出现如下log信息,则说明环境搭建ok.
7. 为服务器添加普通用户
sudo useradd -m -s /bin/bash userName
sudo passwd userName #为这个用户设置密码
删除用户
sudo userdel -r userName
备注:
服务器环境搭建jupyter可以直观的看到文件夹信息,如何搭建请参看下面链接:
。
参考网址: