pytorch 模型权重初始化

原创

mob64ca12e20c7d 2023-11-09 15:01:02 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e20c7d的原创作品，请联系作者获取转载授权，否则将追究法律责任

PyTorch模型权重初始化

在深度学习中，模型权重的初始化是非常重要的，它可以对模型的收敛速度、训练稳定性和最终性能产生重大影响。PyTorch是一个十分流行的深度学习框架，提供了多种权重初始化的方法。本文将介绍一些常见的权重初始化方法，并给出相应的代码示例。

零初始化

最简单的权重初始化方法是将所有权重都初始化为零。这种方法的问题在于，所有的权重都是完全相同的，这样会导致每个神经元都学习相同的特征，从而降低了模型的表达能力。然而，在某些特殊情况下，零初始化可能是有效的。

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.linear = nn.Linear(10, 1)
        
        # 零初始化
        nn.init.zeros_(self.linear.weight)
        nn.init.zeros_(self.linear.bias)

常数初始化

常数初始化是将所有权重都初始化为同一个常数。这种方法可以用于初始化偏置项，也可以用于简单模型的权重初始化。

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.linear = nn.Linear(10, 1)
        
        # 常数初始化
        nn.init.constant_(self.linear.weight, 0.1)
        nn.init.constant_(self.linear.bias, 0.2)

均匀分布初始化

均匀分布初始化是将权重从均匀分布中抽样得到的值作为初始化值。可以通过设置上下界来控制权重的范围。

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.linear = nn.Linear(10, 1)
        
        # 均匀分布初始化
        nn.init.uniform_(self.linear.weight, -0.1, 0.1)
        nn.init.uniform_(self.linear.bias, -0.2, 0.2)

正态分布初始化

正态分布初始化是将权重从正态分布中抽样得到的值作为初始化值。可以通过设置均值和标准差来控制权重的分布。

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.linear = nn.Linear(10, 1)
        
        # 正态分布初始化
        nn.init.normal_(self.linear.weight, mean=0, std=0.1)
        nn.init.normal_(self.linear.bias, mean=0, std=0.2)

自定义初始化方法

除了以上提到的初始化方法外，PyTorch还提供了许多其他的初始化方法，如Xavier初始化、Kaiming初始化等。此外，我们也可以自定义初始化方法。

import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.linear = nn.Linear(10, 1)
        
        # 自定义初始化方法
        def init_weights(m):
            if type(m) == nn.Linear:
                nn.init.uniform_(m.weight, -0.1, 0.1)
                nn.init.constant_(m.bias, 0.1)
        
        self.linear.apply(init_weights)