全卷积网络语义分割卷积神经网络语义分割

转载

网络安全专家 2024-03-04 09:31:52

文章标签 全卷积网络语义分割语义分割深度学习卷积神经网络卷积 文章分类 midjourney AIGC

语义分割的目的是将图像中的每个像素映射至一个目标类。样例如下：

全卷积网络语义分割卷积神经网络语义分割_全卷积网络语义分割

上图中所有车辆被标记为相同的颜色，每个目标类都分别进行了分割，相比于分类，分割是一个更加复杂的问题。

我们使用全卷积网络（FCNs）对图像进行分割，全卷积网络首次在 这篇文章

我会介绍两个重要的技巧，使你能够将用于图像分类的预训练 CNN 转换为 FCN 来执行图像分割。

将全连接层（FC）转换为卷积层（CONV）

FC 和 CONV 层唯一的不同在于 CONV 层中的神经元仅仅和输入中的局部区域相连接，CONV 块中的很多神经元共享参数。然而，这两个层中的神经元仍然要计算点积，所以它们的函数形式是相同的。因此，在 FC 和 CONV 层之间进行转换是可行的。

假设你的卷积层输出大小为7x7x512，紧跟一个有 4096 个神经元的 FC 层，则对于一个单独的输入图像来说，FC 层的输出就为 1x4096。

全卷积网络语义分割卷积神经网络语义分割_卷积_02

你可以将 FC 层替换为 CONV 层，使用 7x7 的卷积核、补零、步长为1、输出深度为 4096。你可以快速地算出输出仅为 1x1x4096，与 FC 层的输出相同。

FC 层到 CONV 层转换的实用方法

让我们考虑一个网络架构，输入图像大小为 224x224x3，然后使用一系列卷积、池化和全连接层来减小图像，最后送入大小为 1000 的激活层，即 1000 个目标类别的分类分数。

全卷积网络语义分割卷积神经网络语义分割_卷积_03

通过上面的架构你可以发现 Conv5 层的输出大小为 7x7x512，然后是两个各有 4096 个神经元的 FC 层。上述架构对输入进行下采样，空间尺寸减小了 2⁵ 倍，使得第五层输出的空间大小为 224/2/2/2/2/2 = 7。

如上文所描述，我们可以将这3个 FC 层转换为 CONV 层：
- 第一个 FC 层可以使用 7x7 卷积核使其输出为 [1x1x4096]
- 第二个 FC 层可以使用 1x1 卷积核使其输出为 [1x1x4096]
- 最后一个 FC 层可以使用 1x1 卷积核使其输出为 [1x1x1000]

例如，如果一个 224x224 的图像能够得到 [7x7x512] 的中间快，即大小除以32，那么输入一张 384x384 的图像可以得到 [12x12x512] 的中间块，因为 384/32=12。紧接着的3个 CONV 层使得最后的输出为 [6x6x1000]，因为(12-7)/1+1=6。注意到我们得到的不是一个 [1x1x1000] 的向量类别分数，而是 [6x6x1000] 的数组类别分数。

你怎么解释每张图像 6x6x1000 的输出？你可以认为每个 6x6 的分片是 1000 个目标类别下采样的热图！！！你可以使用插值算法，调整下采样热图的大小至输入图像的大小。

全卷积网络语义分割卷积神经网络语义分割_卷积神经网络_04