大家好,我是消失了一个小春节的小鱼,春节忙着设计新的小产品,一直在努力,这两天又跑广州来了,今天周末,抽空给笔记本的显卡装个驱动,顺便搞了个pytorch 的GPU配置,小鱼折腾的详细步骤如下,希望对你有用。

多年前小鱼也写过相关文章,找出来镇楼:

gazebo又卡又慢?快把你的显卡用起来!点击查看如何使用显卡运行gazebo~

一文搞懂CUDA问题,警告:买不起显卡的勿进

以下内容由GPT组织,GPT味道有点重。

在Ubuntu 22.04笔记本上安装NVIDIA驱动和CUDA,以及配置PyTorch Docker环境是一项重要的任务,特别是对于需要进行深度学习开发的用户。在本文中,我们将详细介绍如何完成这些步骤。

安装NVIDIA驱动

首先,我们需要选择适合我们硬件的NVIDIA驱动。我们可以从NVIDIA官方网站(https://www.nvidia.cn/Download/index.aspx?lang=cn)下载所需的驱动版本。然后,我们可以通过以下步骤安装:

  1. 下载驱动并解压缩。
  2. 打开终端,使用sudo命令运行驱动安装脚本,例如:sudo bash xxx.run,其中xxx是驱动安装文件的名称。
  3. 安装完成后,可能会遇到错误消息:“NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.”。解决此问题,我们需要执行以下步骤:
sudo prime-select nvidia
grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*

然后找到含有blacklist nvidia的文件并删除,最后运行:

sudo update-initramfs -u

之后重新启动电脑。

  1. 重新启动后,使用nvidia-smi命令可以验证驱动是否正确安装。

配置PyTorch Docker环境

最后,我们将配置PyTorch的Docker环境以便进行深度学习开发。

  1. 首先,我们需要安装nvidia-docker2,它是一个用于在Docker容器中访问NVIDIA GPU的工具。
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
    && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \
    && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt-get update
sudo apt-get install -y nvidia-docker2

sudo systemctl restart docker
  1. 安装完成后,我们可以使用以下命令在PyTorch的Docker容器中验证NVIDIA GPU的可用性以及PyTorch的安装:
sudo docker run --rm -it --gpus all pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime /bin/bash

在容器中,我们可以运行Python并导入PyTorch库,然后使用torch.cuda.is_available()来验证CUDA是否可用。

root@713d71c41d67:/workspace# python3
Python 3.10.13 (main, Sep 11 2023, 13:44:35) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch 
>>> torch
torch
>>> torch.cuda.is_available()
True

通过以上步骤,我们成功地在Ubuntu 22.04笔记本上安装了NVIDIA驱动、CUDA Toolkit,并配置了PyTorch的Docker环境,使得我们可以在GPU加速的环境中进行深度学习开发。

本来还想装个autoware的,结果显卡内存不够:

抽空给笔记本装个显卡驱动,pytorch+CUDA docker 环境配置_CUDA

装上也是阉割检测功能的,后面换设备了,有空再折腾。