pytorch 查看gpu使用情况

原创

mob649e81684ddc 2024-09-01 04:54:08 ©著作权

文章标签 深度学习 Memory python 文章分类 PyTorch 人工智能

©著作权归作者所有：来自51CTO博客作者mob649e81684ddc的原创作品，请联系作者获取转载授权，否则将追究法律责任

PyTorch 中查看 GPU 使用情况的科普文章

引言

随着深度学习的快速发展，越来越多的研究和应用依赖于 GPU 的强大计算能力。在使用 PyTorch 进行深度学习模型训练时，了解 GPU 的使用情况变得尤为重要。在这篇文章中，我们将深入探讨如何检查和监控 GPU 的使用情况，包括相关的代码示例、工具和技巧。

GPU 在深度学习中的重要性

GPU（图形处理单元）能够同时处理的大量数据使其成为深度学习训练的理想选择。与 CPU 相比，GPU 的并行处理能力可以显著提高训练效率。然而，GPU 资源的有效利用至关重要，尤其是当你的设备上运行多种进程时。因此，监控 GPU 的使用状况可以帮助我们优化性能并避免资源浪费。

如何在 PyTorch 中查看 GPU 使用情况

1. 使用 `torch.cuda` 模块

PyTorch 有一个内置模块 torch.cuda，可以方便地查询 GPU 的状态信息。以下是一个简单的示例代码，可以帮助我们检查 GPU 的使用情况。

import torch

# 检查是否有可用的 GPU
if torch.cuda.is_available():
    num_gpus = torch.cuda.device_count()
    print(f"可用的 GPU 数量: {num_gpus}")
    for i in range(num_gpus):
        gpu_name = torch.cuda.get_device_name(i)
        gpu_memory = torch.cuda.get_device_properties(i).total_memory / (1024 ** 2)  # 转换为 MB
        current_memory = torch.cuda.memory_allocated(i) / (1024 ** 2)  # 转换为 MB
        print(f"GPU {i}: {gpu_name}, 总内存: {gpu_memory:.2f} MB, 当前使用内存: {current_memory:.2f} MB")
else:
    print("没有可用的 GPU")

代码分析

torch.cuda.is_available()：检查当前系统是否有可用的 GPU。
torch.cuda.device_count()：获取可用 GPU 的数量。
torch.cuda.get_device_name(i)：获取第 i 个 GPU 的名称。
torch.cuda.get_device_properties(i).total_memory：获取第 i 个 GPU 的总内存。
torch.cuda.memory_allocated(i)：获取第 i 个 GPU 当前已分配的内存。

2. 使用 `nvidia-smi` 命令

另一个常用的方法是使用 NVIDIA 的命令行工具 nvidia-smi。这个工具可以提供更详细的 GPU 使用情况，包括 GPU 利用率、温度和运行进程等信息。

nvidia-smi

输出示例

当你在命令行运行 nvidia-smi 时，你会得到如下输出：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.67                 Driver Version: 460.67                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
| GPU-0: GeForce GTX 1080 Ti  Off | 00000000:01:00.0 Off |                  N/A |
| 30%   39C    P8    12W / 250W |    123MiB / 11175MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

输出解析

GPU Name：显示 GPU 的型号。
Memory-Usage：显示已分配内存和总内存。
GPU-Util：显示 GPU 的利用率。
Pwr:Usage/Cap：显示当前功耗和最大功耗。

3. 使用 PyTorch 自带的 Profiling 工具

PyTorch 还提供了 Profiling 工具，可以更深入地监控 GPU 的性能。以下是一个简单的例子：

import torch
from torch.utils.tensorboard import SummaryWriter

# 创建一个 TensorBoard 实例
writer = SummaryWriter()

# 模型训练过程中的 Profiling
for _ in range(10):
    input_tensor = torch.randn(1000, 1000).cuda()
    with torch.autograd.profiler.profile(use_cuda=True) as prof:
        output_tensor = input_tensor @ input_tensor
    writer.add_scalar('GPU Memory Allocated', torch.cuda.memory_allocated() / (1024 ** 2))

print(prof.key_averages().table(sort_by="cuda_time_total", row_limit=10))
writer.close()

代码解析

torch.autograd.profiler.profile：用于监控每个操作的 GPU 使用情况。
writer.add_scalar：将 GPU 内存使用情况写入 TensorBoard。

总结表格

为了便于对比和理解，以下是不同方法的优缺点总结表格：

方法	优点	缺点
`torch.cuda`模块	简洁易用，直接在代码中调用	功能相对较少
`nvidia-smi`命令	提供详细的 GPU 状态	需要命令行操作
PyTorch Profiling 工具	深入性能分析	学习曲线较陡

最后

通过上述方法，你可以轻松地监控 PyTorch 中的 GPU 使用情况，有助于你提升深度学习模型的训练效率和性能。在实际应用中，可以根据具体情况选择合适的方法，结合代码实现，达到更好的资源利用效果。

希望这篇文章能够帮助你更好地理解和监控 GPU 的使用情况，在深度学习的道路上越走越远！

上一篇：ubuntu docker自动启动脚本

下一篇：python 写入的三中模式

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯