使用Colab

  • 1.上传数据集
  • 2.挂载谷歌云盘
  • 3.更改运行目录
  • 4.上传.py执行文件
  • 5.运行
  • 6.其他问题
  • 6.1换成gpu
  • 6.2下载数据集
  • 6.3解压
  • 6.4包安装和更新


1.上传数据集

gpu服务器集群组网 gpu服务器使用教程_colab


在 我的云端硬盘 创建一个文件夹(如deeplearning),放入要运行的数据集,比如保存在文件夹数据集里

gpu服务器集群组网 gpu服务器使用教程_colab_02


上传数据集

gpu服务器集群组网 gpu服务器使用教程_云服务器_03

2.挂载谷歌云盘

在deeplearning 目录创建一个 .ipynb 文件,以colab方式打开。

下面进行挂载云盘

from google.colab import drive
drive.mount('/content/gdrive')

gpu服务器集群组网 gpu服务器使用教程_深度学习_04

3.更改运行目录

查看一下当前运行目录

!pwd

可以看到这样的目录,所有的云端硬盘文件都在MyDrive里了
接下来打算在/content/gdrive/MyDrive/deeplearning目录,运行。

import os
os.chdir("/content/gdrive/MyDrive/deeplearning")

确认一下运行目录

!pwd

4.上传.py执行文件

gpu服务器集群组网 gpu服务器使用教程_云服务器_05

这边上传了dataset.py,eval.py,file1.py,train.py4个文件。
(虽然可以在notebook上运行,但是个人习惯在本地跑通后,直接放到colab上(可以适当增加batch size,毕竟colab的gpu显存比本地显存大),因为部分notebook的代码需要变化)

5.运行

在当前目录下执行

!python train.py

gpu服务器集群组网 gpu服务器使用教程_深度学习_06


等待训练就行了。

6.其他问题

6.1换成gpu

点击 代码执行程序-更改运行时类型,硬件加速器换成gpu就行

gpu服务器集群组网 gpu服务器使用教程_gpu服务器集群组网_07


查看显卡型号和显存

!nvidia-smi

gpu服务器集群组网 gpu服务器使用教程_gpu服务器集群组网_08


这次分配到的是一张Tesla-T4显卡,16显存(实际上就15G这样)。

接下来重复2、3、4、5操作就行了。

6.2下载数据集

毕竟梯子还是有按照流量来算的。直接上传到云端硬盘有点废流量。

先完成 .更改运行目录,把数据集的url复制进去。运行,等待下载就行了。这样就不需要从本地上传了。(下载到当前运行目录)

import urllib.request
print ("downloading with urllib")
url = 'http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531872/%E5%9C%B0%E8%A1%A8%E5%BB%BA%E7%AD%91%E7%89%A9%E8%AF%86%E5%88%AB/train.zip'
f = urllib.request.urlopen(url)
data = f.read()
with open("train.zip", "wb") as code:
 code.write(data)

6.3解压

用python解压到当前文件

import zipfile
with zipfile.ZipFile('train.zip','r') as zzz:
    zzz.extractall()

或者用命令解压

!unzip train.zip

6.4包安装和更新

查看安装的所有包

!pip list

安装想要的包(比如:pillow)

!pip install pillow

更新包

!pip install pillow --upgrade