docker基本操作

  1. 查看当前运行的docker容器:
sudo docker ps
  1. 查看所有的docker容器:
sudo docker ps -a
  1. 查看当前可创建的docker:
sudo docker image ls
  1. 创建docker容器:
sudo nvidia-docker run -it -v /mnt/sda/speech:/var/workspace --name speech nvidia/cuda:10.2-cudnn7-devel-ubuntu18.04 /bin/bash

pytorch模型GPU 在docker部署 pytorch docker 部署_容器


蓝色字体处为创建的docker容器的名称,两处要一样;红色字体处即是可用的docker类型。

创建好了之后会自动进入容器。

  1. 退出docker容器:
exit

有时候会出现“there are stopped jobs”的提示,则:

jobs -l

查看停止进程列表(由于按下了Ctrl+Z之后使程序或者进程被挂起),杀死或激活进程:

kill %1
fg %1

%后面数字代表进程号

  1. 进入docker容器
sudo docker start -i ID

7.因为各种各样的原因导致进入容器时卡住

sudo docker restart ID

restart之后再start进入容器

  1. 删除docker容器
sudo docker rm ID

注:必须在容器中exit成功退出后,才能调用该指令清除。

安装各个包

  1. 更新下载源
apt-get update
  1. 安装常用工具包
  • 文件传输
apt-get install lrzsz

使用方法:rz -bey选择本地文件上传;sz选择服务器上文件下载到本地
注:rz只能上传<4GB的文件,若要上传超过4GB的文件,请参考

PS:还是别用rz方法上传文件了,不管怎么设置都很容易乱码,直接参考everything的方式上传文件。
尽量也别用sz方法来下载文件,很容易卡住或者乱码,用docker cp指令先复制到宿主机中,再下载到本地。

sudo docker cp 容器ID:容器中的文件路径 宿主机的文件路径
  • 文本编辑
apt-get install vim
  • 文件下载
apt-get install wget
  • git
apt-get install git
  • 文件解压
apt-get install unzip
  • YUM RPM 软件包安装管理
apt-get install yum

搭建pytorch环境

  1. 安装python
apt-get install python3.8

为python建立软链接:

ln -sf /usr/bin/python3.8 /usr/bin/python
  1. 安装pip
apt install python3-pip
pip3 install --upgrade pip

pip换源:

mkdir ~/pip
vim ~/pip/pip.conf

在vim编辑器中输入:

[global]
index-url = https://mirrors.aliyun.com/pypi/simple
[install]
trusted-host=mirrors.aliyun.com

  1. 安装anaconda
    下载安装包并安装:
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2021.11-Linux-x86_64.sh
bash Anaconda3-2021.11-Linux-x86_64.sh

安装过程中会询问你是否要conda init,一定要yes
将conda列入环境变量:

vim ~/.bashrc

在弹出的文件末尾加上anaconda的路径:

export PATH=~/root/anaconda3/bin:$PATH

激活环境变量:

source ~/.bashrc
  1. 安装pytorch
conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

验证是否安装成功:

pytorch模型GPU 在docker部署 pytorch docker 部署_bash_02

其他操作、注意点

  1. conda环境的操作
  • 退出conda
conda deactivate
  • 查看当前conda环境
conda env list
  • 进入conda环境
conda activate name
  • 创建新的conda环境
conda create -n name

注:使用apt-get install指令最好是退出conda环境,否则可能会提示空间不足

  1. screen

该指令可以实现多个任务的并行(要考虑到内存和显存是否够用),并且即使你关闭服务器,他仍在运行。

  • 安装screen
    退出conda环境之后,输入指令:
apt-get install screen
  • 使用screen
    新建:
screen -S name

激活:

screen -d name

进入:

screen -r name

查看所有screen:

screen -ls

退出:
ctrl A+D
删除screen镜像:

kill screen的uid