CNN的Flatten操作 cnn处理步骤

转载

mob6454cc6bcf40 2024-05-08 16:18:09

文章标签 CNN的Flatten操作 cnn 网络深度学习 Powered by 金山文档 文章分类 机器学习人工智能

AlexNet论文[imagenet.pdf (toronto.edu)]。AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。在图像分类上准确率远超在其之前的神经卷积网络。

AlexNet的输入要求是固定的分辨率224*224*3，为此在训练前，首先重新缩放图像，使得较短边的长度为224，然后从结果图像的中心裁剪出224*224大小的图片。原始图像经预处理就变为224*224*3。

AlexNet的网络结构如图：

CNN的Flatten操作 cnn处理步骤_cnn

AlexNet由输入层，5个卷积层，3个全连接层组成。网络是分布在2个GPU上的，部分层只跟同一个GPU中的上一层连接。

卷积后的长 = [（输入图像的长-卷积核的尺寸-2*填充圈数）/ 滑动步长 ] + 1

池化后的长 = [（输入图像的长-池化尺寸）/ 滑动步长 ] + 1

第一层卷积池化：论文中的输入图像是224*224尺寸的，但根据卷积核计算输出的尺寸并不是55*55，但如果输入是227*227尺寸的，经过计算得到的是55*55，所以正确的输入尺寸是227*227。使用96个尺寸为11*11*3的卷积核进行卷积计算，分成两份输入到两个GPU中，stride步长为4，输出size为55*55*48。然后将55×55×48的特征图放入ReLU激活函数，生成激活图。激活后的图像进行最大重叠池化，size为3×3，stride步长为2，池化后的特征图size为27×27×48。池化后进行LRN处理。但在2015年 Very Deep Convolutional Networks for Large-Scale Image Recognition.提到LRN基本没什么用。

CNN的Flatten操作 cnn处理步骤_CNN的Flatten操作_02

第二层卷积池化：每组的27*27*48的输入图像各使用128个5*5*48的卷积核，Padding填充为2，步长为1进行卷积操作，输出图像大小为27*27*128。然后将27*27*128的特征图放入ReLU激活函数，生成激活图。激活后的图像进行最大重叠池化，size为3×3，stride步长为2，池化后的特征图size为13*13*128。池化后进行LRN处理。

CNN的Flatten操作 cnn处理步骤_网络_03

第三、四、五层卷积：输入图像13*13*128，每组13*13*128的图像使用192个3*3*128的卷积核，步长为1，padding为1，卷积后输出图像为13*13*192。之后再使用192个3*3*192的卷积核，步长为1，padding填充为1，卷积后的输出图像为13*13*192。输入图像13*13*192，每组13*13*192的图像使用128个3*3*192的卷积核，步长为1，padding为1，卷积后输出图像为13*13*128。最后进行最大池化，size3*3，步长为2，池化后的特征图是6*6*128。

CNN的Flatten操作 cnn处理步骤_CNN的Flatten操作_04

第六、七层两个全连接层的节点数都是4096，第八层全连接层有1000个结点。AlexNet在前两层全连接层前使用了dropout，以0.5的概率使得每个隐藏层的神经元输出0，既不参与前向传播，也不参与反向传播。这种方法弱化了神经元之间的依赖性。

CNN的Flatten操作 cnn处理步骤_cnn_05

AlexNet的PyTorch实现如下：

class AlexNet(nn.Module):
    def __init__(self, num_classes: int = 1000, dropout: float = 0.5) -> None:
        super().__init__()
        _log_api_usage_once(self)
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(64, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(192, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(p=dropout),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=dropout),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。