神经网络释放GPU显存两种方式（固定or动态）

精选原创

进阶的西红柿 2024-08-29 21:36:27 博主文章分类：神经网络 ©著作权

文章标签 python 神经网络 pytorch 文章分类 PyTorch 人工智能

©著作权归作者所有：来自51CTO博客作者进阶的西红柿的原创作品，请联系作者获取转载授权，否则将追究法律责任

固定的批次数后释放显存

固定的批次数后释放显存，比如每训练 100 批次释放一次显存，可以通过在训练循环中添加一个计数器来实现。以下是如何实现这种策略的示例代码：

import torch

def train():
    start_epoch = 0
    end_epoch = 100
    release_frequency = 100  # 每100个批次释放一次显存

    train_loader = DataLoader('训练数据', num_workers=4, pin_memory=True)
    eval_loader = DataLoader('预测数据', num_workers=4, pin_memory=True)
    
    for epoch in range(start_epoch, end_epoch):
        for batch_idx, (data, target) in enumerate(train_loader):
            # 模型训练代码
            # output = model(data)

            # 每训练完固定数量的批次，释放一次显存
            if (batch_idx + 1) % release_frequency == 0:
                torch.cuda.empty_cache()

            # 其他操作

        # 每个epoch结束后，也可以选择释放一次显存
        torch.cuda.empty_cache()

解释与预期效果：

固定批次释放：通过 if (batch_idx + 1) % release_frequency == 0: 判断条件，每 100 个批次释放一次显存。
显存管理的平衡：这种方式可以减少显存的累积风险，同时避免每个批次都释放显存带来的性能开销。
灵活调整：如果发现显存占用仍然较高或训练时间较长，可以调整 release_frequency 的值，增加或减少显存释放的频率。

潜在问题：

内存占用的逐渐增加：如果训练过程中显存占用过多且释放不及时，可能会出现OOM错误。可以通过监控显存情况，适时调整 release_frequency 。
显存碎片化：定期释放显存可以减少显存碎片化的可能性，但仍需注意在显存占用较大的情况下，可能需要额外的显存管理措施。

总结：

通过这种方式，你可以在固定的批次数后释放显存，确保在显存使用和训练效率之间找到一个平衡点。这种方法在中大型数据集的训练中尤为有效，可以有效防止显存溢出，同时最大化训练速度。

动态策略：

根据显存使用情况动态决定何时释放。可以在程序中监控显存使用，当达到一定阈值时触发释放操作。

实现一个动态策略，根据显存使用情况决定何时释放显存，可以通过以下步骤进行：

1. 监控显存使用情况

你可以使用 PyTorch 提供的 torch.cuda.memory_allocated() 和 torch.cuda.memory_reserved() 函数来监控当前显存的使用情况：

torch.cuda.memory_allocated()：返回当前被PyTorch占用的显存量。
torch.cuda.memory_reserved()：返回当前已分配但未使用的显存量。

2. 设置显存使用阈值

设定一个显存使用的阈值，当显存占用超过这个阈值时触发释放操作。阈值可以根据你的显卡的总显存来设定。

3. 实现动态释放显存的逻辑

在训练过程中，定期检查显存使用情况，当显存使用超过设定的阈值时，调用 torch.cuda.empty_cache() 释放显存。

示例代码：

import torch

def train():
    start_epoch = 0
    end_epoch = 100
    memory_threshold = 0.8  # 设定显存阈值为总显存的80%
    release_frequency = 100  # 每100批次检查一次显存

    train_loader = DataLoader('训练数据', num_workers=4, pin_memory=True)
    eval_loader = DataLoader('预测数据', num_workers=4, pin_memory=True)

    for epoch in range(start_epoch, end_epoch):
        for batch_idx, (data, target) in enumerate(train_loader):
            # 模型训练代码
            # output = model(data)

            # 每训练完固定数量的批次，检查显存占用情况
            if (batch_idx + 1) % release_frequency == 0:
                allocated_memory = torch.cuda.memory_allocated()
                total_memory = torch.cuda.get_device_properties(0).total_memory
                memory_usage_ratio = allocated_memory / total_memory

                if memory_usage_ratio > memory_threshold:
                    torch.cuda.empty_cache()
                    print(f"显存使用达到 {memory_usage_ratio*100:.2f}%，已释放显存。")

            # 其他操作

        # 每个epoch结束后，也可以选择释放一次显存
        torch.cuda.empty_cache()

解释与调整：

动态检查显存：代码每100个批次检查一次显存使用情况。如果显存占用超过设定的阈值（例如80%），则释放显存。
显存监控的灵活性：你可以根据具体的显卡情况调整 memory_threshold 的值，或者根据实际需要调整 release_frequency 的检查频率。
释放频率的调整：如果发现显存使用频繁达到阈值，可能需要降低 release_frequency 或增加 memory_threshold，以避免过于频繁的显存释放。