实验室怎么登录GPU服务账号进行深度学习实验室gpu集群搭建

转载

mob64ca13fc220d 2024-05-22 09:46:49

文章标签 ubuntu linux github 服务器 CUDA 文章分类 深度学习人工智能

实验室GPU服务器的搭建

背景：以此记录在实验室两台GPU服务器安装Ubuntu系统遇到的问题
服务器1：主板：技嘉TRX40 AORUS XTREME； GPU：RTX 2080TI
服务器2：主板：技嘉TRX40 AORUS XTREME； GPU：TITAN RTX

1、系统的安装

1.1 服务器2系统的安装

服务器2的安装很顺利

安装流程：

下载18.04 系统，直接copy到U盘；
然后按照网上教程按照挂载系统的硬盘进行分区，包括主分区、逻辑分区（分区是按照网上说的比例进行的）；
然后可正常安装；

之后问过老师才知道，分区的时候没必要这么繁琐，于是又重新安装了一遍（按以下分区之后也安装顺利）。1T的固态硬盘分区如下：

10G的Swap； 200G的“/”（主分区）， 60MB的EFI引导项，然后剩下的空间全部分给/home（逻辑分区）

1.2 服务器1系统的安装

服务器1的安装前后持续了一周，各种问题不断。安照服务器2系统的安装方法，一直出现安装后黑屏，也试了网上说的针对Ubuntu系统安装之后黑屏问题的解决办法，但还是无法解决。
之后发现是自己的系统缺少引导向，之前安装的系统是下载的ISO系统直接放到U盘下。

解决办法：使用Ubuntu引导项软件Rufus，制作过程中，分区类型选：GPT 目标系统类型：UEFI。

如果U盘无法引导又无法删除卷进行分区，需要使用命令行进行删除卷，解决办法：

(1)在cmd中运行diskpart
(2)lisk disk
(3)sel disk 1(U盘的编号需要一般为1)
(4)clean

2、驱动的安装

1、NVIDIA驱动官网下载驱动
2、卸载原有的驱动

sudo apt-get purge nvidia*
#第一遍安装失败之后继续这样卸载
 ./NVIDIA-Linux-x86_64-390.48.run --uninstall #确保卸载干净。

3、安装需要的依赖（可只安装前两个或者跳过）

sudo apt-get update 
 sudo apt-get install dkms build-essential linux-headers-generic
 sudo apt-get install gcc-multilib xorg-dev
 sudo apt-get install freeglut3-dev libx11-dev libxmu-dev install libxi-dev  libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

4、禁用系统默认显卡驱动

方法二：安装NVIDIA需要把系统自带的驱动禁用，打开文件：
sudo gedit /etc/modprobe.d/blacklist.conf
在文本最后添加以下内容：
blacklist nouveau
option nouveau modeset=0
命令窗口会提示warn，无视之。

保存退出，执行以下命令生效：
sudo update-initramfs -u
重启电脑后输入：
lsmod | grep nouveau没有任何输出说明禁用成功。

5、正式安装驱动

按住CTRL+ALT+F2 进入命令行界面，输入用户名和密码登录命令行界面。

Login : 安装ubuntu的用户名
紧接着输入密码

sudo service lightdm stop    或者   sudo stop lightdm  //# 这会关闭图形界面,禁用X服务

sudo init 3

cd 下载目录 //进入NVIDIA的.run文件目录下

chmod a+x NVIDIA-Linux-x86_64-384.90.run #添加权限
sudo ./NVIDIA-Linux-x86_64-384.90.run --dkms --no-opengl-files

sudo service lightdm start  //开启桌面  “注意：在命令行输入：sudo service lightdm start ，然后按Ctrl-Alt+F7即可恢复到图形界面。”

6、安装出错
安装时，你可能会收到一条 pre-install script failed 信息
卸载安装失败的驱动（从上面步骤2开始继续）
7、安装验证

nvidia-smi #若列出GPU的信息列表，表示驱动安装成功

驱动安装参考：

3、硬盘的挂载

挂载参考

4、Anconda和其它软件的安装

包括anconda、中文输入法，谷歌浏览器

5、Anconda建立虚拟账户

安装
conda create -n  name python==3.6

进入
conda activate 虚拟环境名称

退出
ctrl+D

列出已有环境
conda env list

6、其它的安装

cuda安装参考：

虽然安装anconda之后就默认安装CUDA了，但如果运行大型的数据集例如ImageNet数据集会导致网络模型的训练特别慢。
本人使用ResNet50在ImageNet进行训练，但由于没有手动安装CUDA直接使用anconda默认的CUDA，所以导致网络模型的训练特别缓慢，安装CUDA之后，可解决网络训练慢的问题。
所以还是需要下载并安装CUDA。

关于使用GPU运行大型数据集，程序运行缓慢的问题：

pycharm的安装可以直接在Ubuntu软件包中下载、安装

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：kms激活服务器docker kms激活服务器有什么用

下一篇：nginx打开ftp模式 nginx配置ftp

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯