4. 过滤器/卷积核
让我们首先在所有 “X” 图像中找到一些一致的模式。例如,一个可能的模式可能是。
然后我们可以通过确认图像中存在这个图案来确定图像是一个“X”。
这种模式在这里被称为过滤器。过滤器捕捉 X 的一个关键特征。
过滤器通常是小的方阵,最常见的是 3x3 像素,但大小可以有所不同。
要将过滤器应用于图像以进行模式检测,我们将 3x3 过滤器滑过每个部分,并计算过滤器与其覆盖的部分的点积。
然后我们向这个输出矩阵添加一个偏差项。
其结果就是产生了特征图。然后,此特征图中的每个值都会通过 ReLU 激活函数。
以下是 ReLU 的公式:
如果输入大于 0,则函数按原样输出该值;如果输入小于或等于 0,则输出 0。
因此,通过将特征图传递给 ReLU 函数,我们得到以下更新的特征图。
在这种情况下,除中间的一个单元格外,所有单元格都设置为 0。
下面,我们来总结一下卷积过程,首先,从 X 的输入图像开始。
然后将过滤器与图像进行卷积。
随后,将偏差项添加到卷积矩阵中以创建特征图。
最后,我们通常将此特征图传递给 ReLU 函数以获得更新的特征图。
卷积步骤的主要目的是减少输入大小(从整个图像到特征图)以简化处理。
一个合理的问题是,我们是否因为生成的特征图矩阵中的值减少而丢失了大量信息。确实,我们的值确实减少了,但过滤器旨在检测图像的某些组成部分或特征并消除所有不必要的信息。
与前面提到的过滤器类似,我们可以使用其他过滤器来检测其他特征。例如,我们可以使用这个过滤器。
可以检测以下模式。
因此,如果我们使用与上述相同的过程应用多个过滤器,我们将获得来自同一输入图像的特征图集合。
5. 池化
现在我们的特征图已经准备好了,我们可以进入下一步,池化。这一步很简单。
我们只需扫描之前创建的特征图,选择 2x2 的小部分,然后从每个部分中选择最大值。
最大池化主要用于进一步降低图像中的噪声。
6. 全连接层
将这些值输入全连接层的第一步是展平特征图矩阵。
我们不能按原样输入特征图。因此,我们将其展平。
例如,如果我们有四个过滤器,它们将产生四个特征图。
然后,这些特征图又会从最大池化步骤产生四个 2x2 矩阵。
它们展平后的样子如下:
然后我们可以使用扁平化的输出作为全连接层的输入。
接下来就进行最终的分类或其他预测任务。