系统信息:

Ubantu18.04,GPU:Tesla P100

1. 使用Xshell 登录服务器

自建 GPU 服务器 搭建gpu服务器_自建 GPU 服务器

2. 安装nvidia驱动

根据服务器nvidia信息,下载对应版本的驱动(http://www.nvidia.com/Download/index.aspx?lang=en-us)

查看nvidia信息的命令

lspci | grep -i nvidia

自建 GPU 服务器 搭建gpu服务器_CUDA_02

将下载好的驱动文件传输到服务器文件夹下,依次输入以下两行命令,根据提示选择accept和yes,安装结束。

sudo apt-get install linux-headers-$(uname -r)
sudo sh NVIDIA*.run

3.安装CUDA toolkit

官网下载CUDA toolkit对应版本(https://developer.nvidia.com/cuda-downloads),刚开始我选择的是最新的cuda_10.0,但是TensorFlow-gpu等对应的版本还没有,所以后面一直不成功。后来我选择了比较成熟的cuda_9.0,下载的是runfile本地安装。下载好同样上传到服务器。(ps:虽然我的ubantu是18.04版本,但是这里选16.04也不影响)

自建 GPU 服务器 搭建gpu服务器_官网_03

 根据官网的提示命令安装,或者使用命令

sudo sh cuda*.run

当出现下图所示情况时候,是CUDA的协议,按着enter往下走,一直到100%

自建 GPU 服务器 搭建gpu服务器_CUDA_04

 

接下来,输入accept,yes,注意接下来的一定要选择no,否则会出错(具体为什么出错暂时不知道)。

自建 GPU 服务器 搭建gpu服务器_自建 GPU 服务器_05

出现这样的字样,安装结束

自建 GPU 服务器 搭建gpu服务器_自建 GPU 服务器_06

 

 

 

 

注:如果第二行出现:toolkit installation failed using unsupported compiler,则将上文的安装命令后面添加-override即可,即

sudo sh cuda*.run -override

 

最后,添加环境变量

sudo vi /etc/profile

在打开的文件最后添加cuda的地址

export PATH=/usr/local/cuda-9.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64:$LD_LIBRARY_PATH

保存,退出,通过source命令使更改生效,并检查CUDA是否安装完成

source /etc/profile 使更改生效。
nvcc –V 检查CUDA

自建 GPU 服务器 搭建gpu服务器_服务器_07

4.  安装CUDNN

官网下载和CUDA对应的版本(https://developer.nvidia.com/rdp/cudnn-download ),需要注册。然后解压文件,一次执行以下命令

tar -xvzf cudnn-9.0-linux-x64-v7.1.tgz
cd cuda
sudo cp include/cudnn.h /usr/local/cuda/include
sudo cp lib64/libcudnn.* /usr/local/cuda/lib64

CUDNN安装完成。

5. 安装anaconda

在官网下载anaconda(https://www.continuum.io/downloads)。上传到服务器,使用如下命令安装。

sudo sh Anaconda3-5.2.0-Linux-x86_64.sh

根据提示,如果出现是否添加环境变量选择yes,如果选择了no,可以之后手动添加,方法如下:

sudo vi ~/.bashrc

在最后添加:

export PATH=$PATH:/home/userName/anaconda3/bin:$PATH

保存退出,使用source使命令生效。

source ~/.bashrc

所有这些都做好之后,记得关闭Xshell连接,重新连上才能conda信息。

6.安装TensorFlow-GPU

使用pip 命令,网速不好,耐心等待。也可以直接到官网先下载好,然后本地安装(https://pypi.org/project/tensorflow-gpu/#files)

pip install tensorflow-gpu

测试:

import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))

出现如下log信息,则说明环境搭建ok.

自建 GPU 服务器 搭建gpu服务器_自建 GPU 服务器_08

 

7. 为服务器添加普通用户

sudo useradd -m -s /bin/bash userName
sudo passwd userName #为这个用户设置密码

删除用户

sudo userdel -r userName

 

 

 

备注:

服务器环境搭建jupyter可以直观的看到文件夹信息,如何搭建请参看下面链接:

参考网址: