2维cnn转化1维cnn cnn输入为二维

转载

mob6454cc79ab13 2024-04-15 14:58:44

文章标签 2维cnn转化1维cnn 神经网络卷积卷积核数组 文章分类 机器学习人工智能

task5的学习内容：

1. CNN基础
2. LeNet
3. CNN进阶：AlexNet、VGG、NiN、GoogLeNet

首先学习了卷积神经网络的基础，并介绍了在此思想的基础上的几种变型网络。它们各自有着不同的优缺点和适用环境。下面进行具体的介绍~

一、卷积神经网络基础

主要介绍的是卷积层、池化层、填充（padding）、步幅（stride）、输入/输出通道的含义。

1.卷积层

我们介绍的是最常见的二维卷积层，常用于处理图像数据。

如下图所示的就是二维互相关运算（cross-correlation），输入是一个二维数组X和一个二维核K（kernel）数组，输出也是一个二维数组Y，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置的元素。

2维cnn转化1维cnn cnn输入为二维_卷积

二维卷积层将输入X和卷积核K做互相关原酸，并加上一个标量偏置来得到输出。卷积层的模型参数为：卷积核、标量偏置。

特征图与感受野

特征图：二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某一级的表征，也叫特征图（feature map）。
感受野：影响元素 x 的前向计算的所有可能输入区域（可能大于输入的实际尺寸）叫做 x 的感受野（receptive field）。
以上图为例，输入中阴影部分的四个元素是输出中阴影部分元素的感受野。我们将图中形状为 2×2 的输出记为 Y ，将 Y 与另一个形状为 2×2 的核数组做互相关运算，输出单个元素 z 。那么， z 在 Y 上的感受野包括 Y 的全部四个元素，在输入上的感受野包括其中全部9个元素。可见，我们可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔，从而捕捉输入上更大尺寸的特征。

2.填充

填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素），下图里我们在原输入高和宽的两侧分别添加了值为0的元素。

2维cnn转化1维cnn cnn输入为二维_数组_02

如果原输入的高和宽是 $2维cnn转化1维cnn cnn输入为二维_卷积_03$ 和 $2维cnn转化1维cnn cnn输入为二维_数组_04$ ，卷积核的高和宽是 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_05$ 和 $2维cnn转化1维cnn cnn输入为二维_卷积_06$ ，在高的两侧一共填充 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_07$ 行，在宽的两侧一共填充 $2维cnn转化1维cnn cnn输入为二维_卷积核_08$ 列，则输出的形状为： $2维cnn转化1维cnn cnn输入为二维_卷积_09$

当 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_07$ = $2维cnn转化1维cnn cnn输入为二维_卷积核_08$ = $2维cnn转化1维cnn cnn输入为二维_卷积核_12$ 时，我们称填充为p。

注意：如果在代码里padding是（2,3），说明在行的两侧各加2行，在列的两侧各加3列，因此总共是增加了4行6列！

3.步幅

在互相关运算中，卷积核kernel在输入数组上滑动，每次滑动的行数与列数即是步幅（stride）。

此前我们使用的步幅都是1，下图展示了在高上步幅为3、在宽上步幅为2的二维互相关运算。

2维cnn转化1维cnn cnn输入为二维_数组_13

如果高上步幅为 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_14$ ，宽上步幅为 $2维cnn转化1维cnn cnn输入为二维_神经网络_15$ ，则输出的形状为：

2维cnn转化1维cnn cnn输入为二维_卷积核_16

当 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_14$ = $2维cnn转化1维cnn cnn输入为二维_神经网络_15$ = $2维cnn转化1维cnn cnn输入为二维_卷积_19$ 时，我们称步幅为s。

注意：我们在卷积神经网络中使用奇数高宽的核，比如 3×3 ， 5×5 的卷积核，对于高度（或宽度）为大小为 2k+1 的核，令步幅为1，在高（或宽）两侧选择大小为 k 的填充，便可保持输入与输出尺寸相同。

4.多输入/输出通道

假设输入为RGB（红、绿、蓝）图像，通道数channel为3；如果是灰度图，则channel为1。

多输入通道
卷积层的输入可以包含多个通道，下图展示了含2个输入通道的二维互相关计算的例子。

若输入数据的通道数为 $2维cnn转化1维cnn cnn输入为二维_数组_20$ ，卷积核形状为 $2维cnn转化1维cnn cnn输入为二维_卷积_21$ x $2维cnn转化1维cnn cnn输入为二维_卷积_22$ ，我们为每个输入通道各分配一个形状为 $2维cnn转化1维cnn cnn输入为二维_卷积_21$ x $2维cnn转化1维cnn cnn输入为二维_卷积_22$ 的核数组，将 $2维cnn转化1维cnn cnn输入为二维_数组_20$ 个互相关运算的二维输出按通道相加，得到一个二维数组作为输出。我们把 $2维cnn转化1维cnn cnn输入为二维_数组_20$ 个核数组在通道维上连接，即得到一个形状为 $2维cnn转化1维cnn cnn输入为二维_数组_20$ x $2维cnn转化1维cnn cnn输入为二维_卷积_21$ x $2维cnn转化1维cnn cnn输入为二维_卷积_22$ 的卷积核。
多输出通道
卷积层的输出也可以包含多个通道，设卷积核输入通道数和输出通道数分别为 $2维cnn转化1维cnn cnn输入为二维_数组_20$ 和 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_31$ ，高和宽分别为 $2维cnn转化1维cnn cnn输入为二维_卷积_21$ 和 $2维cnn转化1维cnn cnn输入为二维_卷积_22$ 。如果希望得到含多个通道的输出，我们可以为每个输出通道分别创建形状为 $2维cnn转化1维cnn cnn输入为二维_数组_20$ x $2维cnn转化1维cnn cnn输入为二维_卷积_21$ x $2维cnn转化1维cnn cnn输入为二维_卷积_22$ 的核数组，将它们在输出通道维上连结，卷积核的形状即 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_31$ x $2维cnn转化1维cnn cnn输入为二维_数组_20$ x $2维cnn转化1维cnn cnn输入为二维_卷积_21$ x $2维cnn转化1维cnn cnn输入为二维_卷积_22$ 。
对于输出通道的卷积核，我们提供这样一种理解，一个 $2维cnn转化1维cnn cnn输入为二维_数组_20$ x $2维cnn转化1维cnn cnn输入为二维_卷积_21$ x $2维cnn转化1维cnn cnn输入为二维_卷积_22$ 的核数组可以提取某种局部特征，但是输入可能具有相当丰富的特征，我们需要有多个这样的 $2维cnn转化1维cnn cnn输入为二维_数组_20$ x $2维cnn转化1维cnn cnn输入为二维_卷积_21$ x $2维cnn转化1维cnn cnn输入为二维_卷积_22$ 的核数组，不同的核数组提取的是不同的特征。
1x1卷积层
最后讨论形状为 1×1 的卷积核，我们通常称这样的卷积运算为 1×1 卷积，称包含这种卷积核的卷积层为 1×1 卷积层。下图展示了使用输入通道数为3、输出通道数为2的 1×1 卷积核的互相关计算。

1×1 卷积核可在不改变高宽的情况下，调整通道数。 1×1卷积核不识别高和宽维度上相邻元素构成的模式，其主要计算发生在通道维上。假设我们将通道维当作特征维，将高和宽维度上的元素当成数据样本，那么1×1卷积层的作用与全连接层等价。
卷积层与全连接层的对比
二维卷积层经常用于处理图像，与此前的全连接层相比，它主要有两个优势：
一是全连接层把图像展平成一个向量，在输入图像上相邻的元素可能因为展平操作不再相邻，网络难以捕捉局部信息。而卷积层的设计，天然地具有提取局部信息的能力。
二是卷积层的参数量更少。不考虑偏置的情况下，一个形状为 ( $2维cnn转化1维cnn cnn输入为二维_数组_20$ , $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_31$ , $2维cnn转化1维cnn cnn输入为二维_卷积核_49$ , $2维cnn转化1维cnn cnn输入为二维_神经网络_50$ ) 的卷积核的参数量是 $2维cnn转化1维cnn cnn输入为二维_数组_20$ x $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_31$ x $2维cnn转化1维cnn cnn输入为二维_卷积核_49$ x $2维cnn转化1维cnn cnn输入为二维_神经网络_50$ ，与输入图像的宽高无关。假如一个卷积层的输入和输出形状分别是 ( $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_55$ , $2维cnn转化1维cnn cnn输入为二维_卷积_56$ , $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_57$ ) 和( $2维cnn转化1维cnn cnn输入为二维_数组_58$ , $2维cnn转化1维cnn cnn输入为二维_数组_59$ , $2维cnn转化1维cnn cnn输入为二维_卷积核_60$ )，如果要用全连接层进行连接，参数数量就是 $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_55$ x $2维cnn转化1维cnn cnn输入为二维_数组_58$ x $2维cnn转化1维cnn cnn输入为二维_卷积_56$ x $2维cnn转化1维cnn cnn输入为二维_2维cnn转化1维cnn_57$ x $2维cnn转化1维cnn cnn输入为二维_数组_59$ x $2维cnn转化1维cnn cnn输入为二维_卷积核_60$ 。使用卷积层可以以较少的参数数量来处理更大的图像。