深度学习

Author:louwill

Machine Learning Lab

   

     搞深度学习环境永远是第一步。笔者之前也写过配置的两篇文章,但时间久远,目前来看版本已经过旧了。之前两篇参考:

​深度学习100问-1:深度学习环境配置有哪些坑?​

​深度学习笔记15:ubuntu16.04 下深度学习开发环境搭建与配置​

     显卡与服务器等硬件设备装机完成后就需要配置本机环境。本篇配置主要包括Nvidia驱动安装、CUDA安装和深度学习与Python环境配置三个方面。本机系统配置为Ubuntu18.04+CUDA10.2,显卡信息为GeForce GTX 1080Ti。

1.安装Nvidia显卡驱动

     查看本机显卡能够配置的驱动信息:

ubuntu-drivers devices

Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南_深度学习

     可以看到本机推荐的驱动版本为440,然后根据Nvidia官网上CUDA10.2 的配置要求看一下是否匹配:

Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南_虚拟环境_02

     官方给出的CUDA10.2最低驱动版本为440.33,所以要安装CUDA10.2的话,驱动器版本只有440可选。依次执行下述命令安装440驱动:

sudo apt-get purge nvidia* 
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-driver-440

     然后重启机器使更新生效:

sudo shutdown -r now

2.安装CUDA10.2

     第二步就是安装CUDA。这里我们安装CUDA最新的10.2版本。进入Nvidia cuda下载地址:

​https://developer.nvidia.com/cuda-downloads​

     依次选择对应系统和版本等信息:

Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南_虚拟环境_03

     我们这里选择的Ubuntu 18.04下的deb安装类型。然后依次执行下述7条命令:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64.deb
sudo apt-key add /var/cuda-repo-10-2-local-10.2.89-440.33.01/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda

     如果顺利的话CUDA10.2可以安装完成。但如果本机之前的CUDA版本存在卸载不干净等问题的话,安装有可能会报dkpg的错:

Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南_深度学习_04

     所以这里补充一个CUDA完全卸载的方法:

sudo apt-get --purge remove "*cublas*" "cuda*"
sudo apt-get --purge remove "*nvidia*"
sudo apt-get purge nvidia*
sudo apt-get autoremove
sudo apt-get autoclean
sudo rm -rf /usr/local/cuda*

3.安装Python3.7 并配置深度学习环境

     下载anaconda:

wget https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh

     安装:

bash Anaconda3-2020.02-Linux-x86_64.sh

     创建虚拟环境:

conda install -n 

     启动虚拟环境:

conda activate 

     安装深度学习框架,以PyTorch1.5为例:

Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南_虚拟环境_05

pip install torch torchvision

     安装完成后验证一下当前环境下的PyTorch是否可以使用GPU,显示为True则表明配置成功。

import torch
torch.cuda.is_available()

Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南_虚拟环境_06

Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南_ubuntu_07