Vision Transformer (ViT)浅析

原创

谁唱江南断肠句 2024-06-06 09:55:45 ©著作权

文章标签 transformer 深度学习人工智能 Big 归一化 文章分类 MySQL 数据库

©著作权归作者所有：来自51CTO博客作者谁唱江南断肠句的原创作品，请联系作者获取转载授权，否则将追究法律责任

Vision Transformer (ViT)

概述

为了将Transformer引入视觉任务，Google团队开发出了Vision Transformer (ViT)，其中ViT模型以及变种在图像分类任务上一骑绝尘

Vision Transformer (ViT)浅析_人工智能

ViT的结构

Vision Transformer (ViT)浅析_transformer_02

ViT首先将图像( $Vision Transformer (ViT)浅析_transformer_03$ )划分为多个Patch( $Vision Transformer (ViT)浅析_归一化_04$ )，Patch的维度为 $Vision Transformer (ViT)浅析_归一化_05$ 。可得图片划分的Patch数目为 $Vision Transformer (ViT)浅析_Big_06$ 。例如输入图片大小为224x224，将图片分为固定大小的patch，patch大小为16x16，则每张图像会生成224x224/16x16=196个patch，即输入序列长度为196，每个patch维度16x16x3=768

然后使每一个Patch展平后进行线性投影为固定长度的向量。在线性投影中直接使用一个卷积核大小为16x16，步距为16，卷积核个数为768的卷积来实现。通过卷积[224, 224, 3] -> [14, 14, 768]，然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768]，此时正好变成了一个二维矩阵，正是Transformer想要的。并添加一个特殊的token[cls]与token拼接在一起以便表示为图像分类任务，此时token为的维度是197x768。到目前为止，已经通过patch embedding将一个视觉任务就转化为序列问题。

同时ViT没有采用原始Transformer的位置编码方式，而是直接设置为可学习的位置编码（Positional Encoding）。

这个过程可以公式化为：
$Vision Transformer (ViT)浅析_人工智能_07$
表示图块编码和位置编码过程，其中 $Vision Transformer (ViT)浅析_人工智能_08$ 是线性变换矩阵且 $Vision Transformer (ViT)浅析_transformer_09$ $Vision Transformer (ViT)浅析_归一化_10$ , $Vision Transformer (ViT)浅析_Big_11$ , $Vision Transformer (ViT)浅析_归一化_12$ 为人为增加的一个可学习的分类向量。

然后在transformer的多头注意力机制中多头自注意力时，先将输入映射到q，k，v，如果只有一个头，qkv的维度都是197x768，如果有12个头（768/12=64），则qkv的维度是197x64，一共有12组qkv，最后再将12组qkv的输出拼接起来，输出维度是197x768，然后在过一层LN，维度依然是197x768
$Vision Transformer (ViT)浅析_归一化_13$
公式表示Transformer 编码器中的多头自注意力 (Multi-head Selfattention)、残差连接与层归一化 (Add &Norm) 过程，重复 L次。