GPU 云服务器(Cloud GPU Service)是基于 GPU 的快速、稳定、弹性的计算服务,主要应用于深度学习训练/推理、图形图像处理以及科学计算等场景。 GPU 云服务器提供和标准 CVM 云服务器一致的方便快捷的管理方式。GPU 云服务器通过其强大的快速处理海量数据的计算性能,有效解放用户的计算压力,提升业务处理效率与竞争力。

本文介绍如何使用 Windows GPU 云服务器,通过云服务器控制台搭建深度学习环境。

实例环境

实例类型GN8.LARGE56

操作系统:Windows Server 2019 数据中心版 64位 中文版

CPU:Intel(R) Xeon(R) CPU E5-2680 v4 @2.40GHz 2.40GHz * 6vCPUs

RAM:56GB

GPU:Tesla P40 * 1

驱动及相关库、软件版本:CUDA 10.2、Python 3.7、Pytorch 1.8.1、Tensorflow_gpu_2.2.0

选择驱动及相关库、软件版本

在安装驱动前,您需大致了解 CUDA、cuDNN、Pytorch、TensorFlow 及 Python 版本对应关系,以便根据实际配置选择适配版本,免除后续出现版本不匹配等问题。

选择 CUDA 驱动版本

CUDA(Compute Unified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台。CUDA™ 是一种由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。其包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。

1. 查看显卡算力

在选择 CUDA 驱动版本时,需先了解本文使用(Tesla P40)显卡的算力。可通过 NVIDIA 官网 查询 Tesla P40 显卡算力为6.1。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_云计算

2. 选择 CUDA 版本

如下图所示 CUDA 版本与显卡算力的关系,Tesla P40 显卡应选择8.0以上的 CUDA 版本。如需了解更多算力与 CUDA 版本信息,请参见 Application Compatibility on the NVIDIA Ampere GPU Architecture

腾讯云 Windows GPU 云服务器搭建深度学习环境_云计算_02

选择显卡驱动版本

选择 cuDNN 版本

选择 Pytorch 版本

选择 TesorFIow 版本

操作步骤

创建实例

参见 购买 NVIDIA GPU 实例,创建 GPU 云服务器实例。 若您已具备 GPU 云服务器实例,则可参见 重装系统,重置已有实例的操作系统。

安装驱动、CUDA 及 cuDNN

安装显卡驱动

1. 参见 使用标准方式登录 Windows 实例(推荐),登录已创建的 GPU 云服务器。

2. 使用浏览器访问 NVIDIA 官网,并选择显卡的驱动版本。本文选择配置如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_腾讯云_03

3. 选择 SEARCH 进入下载页面,单击下载即可。 若您想通过下载至本地,再通过 FTP 上传至 GPU 云服务器,可参见 如何将本地文件拷贝到云服务器

4. 下载完成后,请双击安装包,根据页面提示完成安装。

安装 CUDA

1. 进入 CUDA Toolkit Archive,选择对应版本。本文以下载10.2版本为例,如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_服务器_04

2. 进入 CUDA Toolkit 10.2 Download 页面,选择对应系统配置。本文选择配置如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_服务器_05

3. 单击 Download,开始下载。

4. 下载完成后,请双击安装包,并根据页面提示进行安装。其中,请注意以下步骤:

在弹出的 CUDA Setup Package 窗口中,Extraction path 为暂时存放地址,无需修改,保持默认并单击 OK。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_腾讯云_06

许可协议步骤中,选择自定义并单击下一步。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_服务器_07

根据实际需求选择安装组件,并单击下一步。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_云计算_08

其余选项请根据页面提示,及实际需求进行选择,直至安装完毕。

配置环境变量

1. 在操作系统界面,右键单击左下角的

腾讯云 Windows GPU 云服务器搭建深度学习环境_windows_09

,在弹出菜单中选择运行

2. 在运行窗口中输入 sysdm.cpl,并单击确定

3. 在打开的系统属性窗口中,选择高级页签,并单击环境变量。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_深度学习_10

4. 选择系统变量中的 Path,单击编辑

5. 在弹出的编辑环境变量窗口中,新建并输入如下环境变量配置。



C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\bin

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\libnvvp

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64

C:\Program Files\NVIDIA Corporation\NVSMI

编辑完成后如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_windows_11

6. 连续单击3次确定,保存设置。

检查显卡驱动及 CUDA

1. 在操作系统界面,右键单击左下角的

腾讯云 Windows GPU 云服务器搭建深度学习环境_深度学习_12

,在弹出菜单中选择运行

2. 在运行窗口中输入 cmd,并单击确定

3. 在 cmd 窗口中:

执行以下命令,检查显卡驱动是否安装成功。



nvidia-smi

返回如下图所示界面表示显卡驱动安装成功。下图为正在运行中的 GPU,在 GPU 运行时,该命令可查看 GPU 的使用情况。

腾讯云 Windows GPU 云服务器搭建深度学习环境_服务器_13

执行以下命令,检查 CUDA 是否安装成功。



nvcc -V

返回如下图所示界面表示 CUDA 安装成功。

腾讯云 Windows GPU 云服务器搭建深度学习环境_腾讯云_14

安装 cuDNN

1. 前往 cuDNN Download 页面,单击 Archived cuDNN Releases 查看更多版本。

2. 找到所需 cuDNN 版本,并下载。

3. 解压 cuDNN 压缩包,并将 binincludelib 文件夹拷贝至 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2 目录下。

4. 至此已完成 cuDNN 安装。

安装深度学习库

安装 Anaconda

建议通过 Anaconda 创建的虚拟环境安装 Pytorch 和 Tensorflow。通过 Anaconda,可便捷获取包并对包进行管理,同时可统一管理环境。Anaconda 包含了 conda、Python 在内的超过180个科学包及其依赖项,安装过程简单,能高性能使用 Python 和 R 语言,且有免费的社区支持。

1. 前往 Anaconda 官网,拉至页面底部,选择 archive 查看更多版本。

2. 在页面中下载所需版本,本文以下载 Anaconda3-2019.03-Windows-x86_64 为例。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_windows_15

3. 请双击安装包,并根据页面提示进行安装。其中,请注意以下步骤:

Choose Install Location 步骤中,更改默认安装路径。因默认安装路径 C 盘中的 ProgramData 文件夹为隐藏文件夹,为了方便管理,建议安装在其他文件夹。下图所示为默认安装路径:

腾讯云 Windows GPU 云服务器搭建深度学习环境_云计算_16

Advanced Installation Options 步骤中,勾选全部选项,表示将 Anaconda 安装路径添加至环境变量,并将 Python 3.7 作为解释器。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_windows_17

4. 单击 Install 等待完成安装。

配置 Anaconda

1. 在操作系统界面,单击左下角的

腾讯云 Windows GPU 云服务器搭建深度学习环境_深度学习_18

,在弹出菜单中选择 Anaconda Prompt。如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_windows_19

2. 在打开的 Anaconda Prompt 命令行窗口中,执行以下命令,创建虚拟环境。



conda create -n xxx_env python=3.7

说明

xxx_env 为环境名,python=3.7 为 Python 版本,您可根据实际需求进行修改。

创建成功即如下图所示:

腾讯云 Windows GPU 云服务器搭建深度学习环境_腾讯云_20

您可使用以下命令进入或退出已创建的虚拟环境。进入虚拟环境后,即可按照实际需求安装包。



#激活命令

conda activate xxx_env

#退出命令

conda deactivate

安装 Pytorch

前往 Pytorch 官网,使用官网推荐的安装代码。 本文已安装 CUDA 版本为10.2,并选择 pip 安装方式,则在已创建的 xxx_env 虚拟环境中执行如下命令进行安装:



# CUDA 10.2

pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

可通过替换源,加快安装速度,替换为清华源后则执行如下命令:



# CUDA 10.2

pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html -i https://pypi.tuna.tsinghua.edu.cn/simple

安装 Tensorflow

执行以下命令,安装 Tensorflow_gpu_2.2.0。



pip install tensorflow-gpu==2.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

执行以下命令,安装 keras。



pip install keras -i https://pypi.tuna.tsinghua.edu.cn/simple

至此,已完成了基本深度学习库的安装。您可参考本文方法安装更多所需要的包,并利用 Anaconda 自带的 jupyter notebook、Spyder 工具或者安装 PyCharm 等工具开始代码学习!