pytorch tensor维度转置 pytorch 转置卷积

转载

mob64ca1405d568 2024-01-01 13:06:55

文章标签 pytorch tensor维度转置 pytorch 反卷积可视化卷积卷积核转置 文章分类 PyTorch 人工智能

转置卷积又称反卷积，逆卷积。在主流的深度学习框架之中，如Tensorflow，Pytorch,Kreas中的函数名都是conv_transpose

将一个4*4的输入通过3*3的卷积核核进行普通卷积后（无padding,stride=1）,将得到2*2的输出。而转置卷积将一个2*2的输入通过同样的3*3的卷积核，将得到一个4*4的输出。这看起来像是普通卷积的逆过程。事实上，这两者没有任何关系，操作过程也是不可逆的。

普通卷积（直接卷积）

pytorch tensor维度转置 pytorch 转置卷积_转置

但在实际计算中，并不是通过卷积核在输入上进行滑动计算，效率太低，而是将卷积核转换为等效矩阵，将输入转化为向量，通过输入向量核卷积核矩阵的相乘获得输出向量。输出的向量经过整形便可得到我们的二维输出特征。

具体操作如下图所示，由于一个3*3的卷积核要在输入上不同位置卷积卷积4次，所以通过补0的方式，将卷积核分别置于一个4*4矩阵的四个角落，这样我们的输入可以直接和这四个4*4的矩阵进行卷积，而舍去了滑动操作。

pytorch tensor维度转置 pytorch 转置卷积_pytorch 反卷积可视化_02

进一步我们将输入拉成长向量，四个4*4的卷积核也进行拼接，如下图

pytorch tensor维度转置 pytorch 转置卷积_卷积核_03

我们记向量化的图像为

，向量化的卷积矩阵为

，输出特征向量为

pytorch tensor维度转置 pytorch 转置卷积_卷积_04

我们将一个1*16的行向量乘以一个16*4的矩阵，得到一个1*4的行向量，那么反过来一个1*4的向量乘以一个4*16的矩阵不就是能得到一个1*16的行向量，这既是转置卷积的思想。

转置卷积

一般卷积操作（这里只考虑最简单的无padding，stride=1的情况），都将输入的数据越卷越小，根据卷积核大小的不同，和步长的不同，输出尺寸变化也很大。但是有时候，我们需要输入一个小的特征，输出更大的尺寸的特征。比如，图像语义分割中，往往要求最终的输出的特征尺寸和原始的输入尺寸相同，但是在网络卷积核池化的过程中特征图的尺寸逐渐变小，这里转置卷积便能派上用场。在数学上，转置卷积的操作非常简单，把正常的卷积操作反过来即可。

pytorch tensor维度转置 pytorch 转置卷积_pytorch tensor维度转置_05

这里需要注意的是，这两个操作并不是可逆的，对于用一个卷积核，经过转置卷积操作后并不能恢复到原始的数值，只是保留了原始的形状

形象化的转置卷积

可视化转置卷积，以上式的第一列为例

pytorch tensor维度转置 pytorch 转置卷积_pytorch 反卷积可视化_06

这里将输入还原为一个2*2的张量，新的卷积核由于左上角有非零值，可以计算得到右侧结果

对每一个列向量都可以做这样的变换

pytorch tensor维度转置 pytorch 转置卷积_卷积_07

结合整体，仿佛是有一个更大的卷积核在2*2的大小的输入上滑动，但是输入太小，每一次卷积只能对应卷积核的一部分

pytorch tensor维度转置 pytorch 转置卷积_卷积核_08

直接卷积是用一个小窗户看大世界，而转置卷积是用一个大窗户的一部分去看小世界。

这里需要注意。我们定义的卷积是左上角为a，右下角为i，但是在可视化卷积的过程中需要将卷积核旋转180度后再进行卷积。由于输入图像太小，我们按照卷积核的尺寸来进行补0操作，补0数量为0即3-1，这样就将一个转置卷积转换为对应的直接卷积

pytorch tensor维度转置 pytorch 转置卷积_转置_09

总结一下转置卷积转换为直接卷积的步骤（这里只考虑stride=1 padding=0的情况）

设卷积核大小为k*k，输入为方形矩阵

（1）对输入进行四边补0，单边补0的数量为k-1

（2）将卷积核旋转180度，再新的输入上进行直接卷积

# -*- coding: utf-8 -*-
# @Author  : qiaohezhe
# @github : https://github.com/fengduqianhe
# @Date    :  2020/1/23 12:41
# version： Python 3.7.8
# @File : tensorflow_example6.py
# @Software: PyCharm
#转置卷积的验证例子


import tensorflow as tf

x = tf.reshape(tf.constant([[1,2],
                            [4,5]],dtype=tf.float32), [1, 2, 2, 1])
kernel = tf.reshape(tf.constant([[1,2,3],
                                 [4,5,6],
                                 [7,8,9]],dtype=tf.float32), [3, 3, 1, 1])
transpose_conv = tf.nn.conv2d_transpose(x, kernel, output_shape=[1, 4, 4, 1], strides=[1,1,1,1], padding='VALID')
sess = tf.Session()
print(sess.run(x))
print(sess.run(kernel))
print(sess.run(transpose_conv))


x2 = tf.reshape(tf.constant([[0, 0, 0, 0, 0, 0],
                             [0, 0, 0, 0, 0, 0],
                             [0, 0, 1, 2, 0, 0],
                             [0, 0, 4, 5, 0, 0],
                             [0, 0, 0, 0, 0, 0],
                             [0, 0, 0, 0, 0, 0]],dtype=tf.float32), [1, 6, 6, 1])
kernel2  = tf.reshape(tf.constant([[9,8,7],
                                   [6,5,4],
                                   [3,2,1]],dtype=tf.float32), [3, 3, 1, 1])
conv = tf.nn.conv2d(x2,kernel2,strides=[1,1,1,1],padding='VALID')

print(sess.run(x2))
print(sess.run(kernel2))
print(sess.run(conv))

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。