实验室GPU服务器的搭建
背景:以此记录在实验室两台GPU服务器安装Ubuntu系统遇到的问题
服务器1:主板:技嘉TRX40 AORUS XTREME; GPU:RTX 2080TI
服务器2:主板:技嘉TRX40 AORUS XTREME; GPU:TITAN RTX
1、系统的安装
1.1 服务器2系统的安装
服务器2的安装很顺利
安装流程:
- 下载18.04 系统,直接copy到U盘;
- 然后按照网上教程按照挂载系统的硬盘进行分区,包括主分区、逻辑分区(分区是按照网上说的比例进行的);
- 然后可正常安装;
之后问过老师才知道,分区的时候没必要这么繁琐,于是又重新安装了一遍(按以下分区之后也安装顺利)。1T的固态硬盘分区如下:
10G的Swap; 200G的“/”(主分区), 60MB的EFI引导项, 然后剩下的空间全部分给/home(逻辑分区)
1.2 服务器1系统的安装
服务器1的安装前后持续了一周,各种问题不断。安照服务器2系统的安装方法,一直出现安装后黑屏,也试了网上说的针对Ubuntu系统安装之后黑屏问题的解决办法,但还是无法解决。
之后发现是自己的系统缺少引导向,之前安装的系统是下载的ISO系统直接放到U盘下。
解决办法:使用Ubuntu引导项软件Rufus,制作过程中,分区类型选:GPT 目标系统类型:UEFI。
如果U盘无法引导又无法删除卷进行分区,需要使用命令行进行删除卷,解决办法:
(1)在cmd中运行diskpart
(2)lisk disk
(3)sel disk 1(U盘的编号需要一般为1)
(4)clean2、驱动的安装
1、NVIDIA驱动官网下载驱动
2、卸载原有的驱动
sudo apt-get purge nvidia*
#第一遍安装失败之后继续这样卸载
./NVIDIA-Linux-x86_64-390.48.run --uninstall #确保卸载干净。3、安装需要的依赖(可只安装前两个或者跳过)
sudo apt-get update
sudo apt-get install dkms build-essential linux-headers-generic
sudo apt-get install gcc-multilib xorg-dev
sudo apt-get install freeglut3-dev libx11-dev libxmu-dev install libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev4、禁用系统默认显卡驱动
方法二:安装NVIDIA需要把系统自带的驱动禁用,打开文件:
sudo gedit /etc/modprobe.d/blacklist.conf
在文本最后添加以下内容:
blacklist nouveau
option nouveau modeset=0
命令窗口会提示warn,无视之。
保存退出,执行以下命令生效:
sudo update-initramfs -u
重启电脑后输入:
lsmod | grep nouveau没有任何输出说明禁用成功。5、正式安装驱动
按住CTRL+ALT+F2 进入命令行界面,输入用户名和密码登录命令行界面。
Login : 安装ubuntu的用户名
紧接着输入密码
sudo service lightdm stop 或者 sudo stop lightdm //# 这会关闭图形界面,禁用X服务
sudo init 3
cd 下载目录 //进入NVIDIA的.run文件目录下
chmod a+x NVIDIA-Linux-x86_64-384.90.run #添加权限
sudo ./NVIDIA-Linux-x86_64-384.90.run --dkms --no-opengl-files
sudo service lightdm start //开启桌面 “注意:在命令行输入:sudo service lightdm start ,然后按Ctrl-Alt+F7即可恢复到图形界面。”6、安装出错
安装时,你可能会收到一条 pre-install script failed 信息
卸载安装失败的驱动(从上面步骤2开始继续)
7、安装验证
nvidia-smi #若列出GPU的信息列表,表示驱动安装成功驱动安装参考:
3、硬盘的挂载
挂载参考
4、Anconda和其它软件的安装
包括anconda、中文输入法,谷歌浏览器
5、Anconda建立虚拟账户
安装
conda create -n name python==3.6进入
conda activate 虚拟环境名称退出
ctrl+D列出已有环境
conda env list6、其它的安装
cuda安装参考:
虽然安装anconda之后就默认安装CUDA了,但如果运行大型的数据集例如ImageNet数据集会导致网络模型的训练特别慢。
本人使用ResNet50在ImageNet进行训练,但由于没有手动安装CUDA直接使用anconda默认的CUDA,所以导致网络模型的训练特别缓慢,安装CUDA之后,可解决网络训练慢的问题。
所以还是需要下载并安装CUDA。
关于使用GPU运行大型数据集,程序运行缓慢的问题:
pycharm的安装可以直接在Ubuntu软件包中下载、安装
















