1.登陆服务器

首先安装openssh客户端,win10有自带的,详情见win10使用自带的openssh 服务器管理员告诉我:他在服务器给我开了账号和密码,分别为ZZZZZ和MMMMM,数据中心ip是SSSSS,服务器ip是FFFFF。
然后我开始登陆数据中心,打开cmd,输入:

ssh ZZZZZ@SSSSS

然后提示输入密码,输入:

MMMMM

好了,进入了数据中心。
在数据中心创建了自己的目录/home/xxx和/data/xxx。
再通过数据中心登陆服务器。打开cmd,输入:

ssh FFFFF

再提示输入密码,输入:

MMMMM

成功登陆到服务器。

2.安装anaconda

使用anaconda安装pytorch,因为使用pip安装的时候会有错误(没有去仔细查看,有些地方还有管理员权限,但是我并没有)。在/data/xxx目录安装anaconda,然后在.bashrc文件里添加环境变量。详情:
(1)首先,在/data/xxx新建Anaconda3目录,然后从https://repo.continuum.io/archive/index.html上下载对应版本的Anaconda。
比如选择安装 Anaconda3-5.0.1-Linux-x86_64.sh,(对应python3.6,x64系统)可以采用下列命令:

wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh

(2)下载完成成后直接进行安装:

bash Anaconda3-5.0.1-Linux-x86_64.sh

(3)修改环境变量

vi .bashrc

进入.bashrc之后,在最后添加如下代码:

#Anaconda3
export PATH="/data/xxx/Anaconda3/bin:$PATH"

(4)最后,立即使路径生效,需要在用户目录下执行:

source .bashrc

3. 安装pytorch

在pytorch官网选择对应版本进行安装,如下,选择自己想要的版本,复制指令安装

pytorch分布式 后端通讯方式 pytorch部署到服务器_pytorch


输入如下指令:

conda install pytorch torchvision cudatoolkit=9.0 -c pytorch

等待漫长的时间,可能一个小时。(如果是在自己有管理员权限的电脑上装,用pip更快,可能20分钟)

4. 跑模型之screen

将模型的整个工程文件复制到/data/xxx下(我用winscp传送的)。
进入到相应目录,输入指令即可开始跑模型,例如:

python3 main.py --gan_type WGAN --dataset cifar10 --epoch 3333

但是,当不小心cmd断开的时候,你在服务器运行的代码也会中止,这实在是太惨了!
所以,推荐使用screen来跑,在所要执行的指令前添加screen。如:

screen python3 main.py --gan_type WGAN --dataset cifar10 --epoch 3333

这个时候如果ssh终端断开了连接。我们只需要再次连接服务器然后输入指令:

screen -ls

查询正在跑的程序的线程号:

There is a screen on:
	2610.pts-10.server2	(04/16/2019 10:24:40 AM)	(Attached)
1 Socket in /var/run/screen/S-xxx.

查询到了线程号是27267了,所以我们只需要执行下面的指令即可恢复到前台了。

screen -r 2610

如果想杀掉终端可以执行

kill 2610

其他更多的指令可以通过screen –help来进行学习。

5.指定GPU跑模型

查看GPU使用情况:

nvidia-smi

使用序号为1的GPU跑模型

CUDA_VISIBLE_DEVICES=1 python3 main.py

6.保存加载模型

pytorch分布式 后端通讯方式 pytorch部署到服务器_服务器_02


以上,希望对新手有所帮助。