cnn为什么比transformer快的原因为什么cnn适合图像处理

转载

幸福的地图 2024-07-27 09:28:11

文章标签 深度学习机器学习人工智能视觉模型建模 文章分类 机器学习人工智能

#今日论文推荐#图神经网络试图打入 CV 主流？中科大华为等联合开源 ViG：首次用于视觉任务的 GNN

本文提出了一种 GNN 通用视觉模型，是来自中国科学院大学，北京华为诺亚方舟实验室的学者们在通用视觉模型方面有价值的探索。
1.1.1 背景和动机
在现代计算机视觉任务中，通用视觉模型最早以 CNN 为主。近期 Vision Transformer，Vision MLP 为代表的新型主干网络的研究进展将通用视觉模型推向了一个前所未有的高度。
不同的主干网络对于输入图片的处理方式也不一样，如下图1所示是一张图片的网格表示，序列表示和图表示。图像数据通常表示为欧几里得空间 (Euclidean space) 中的规则像素网格，CNN 通过在图片上进行滑动窗口操作引入平移不变形和局部性。而 Vision Transformer，Vision MLP 为代表的新型主干网络将图片视为图片块的序列，比如一般将 224×224 大小的图片分为196个 16×16 的图片块。
但是无论是上面的网格表示还是序列表示，图片都以一种非常规则的方式被建模了，也就是说，每个图片块之间的 "联系" 已经固化。比如图1中这条 "鱼" 的 "鱼头" 可能分布在多个图片块中，这些 Patch 按照网格表示或者序列表示都没有 "特殊" 的联系，但是它们在语义上其实都表示 "鱼头"。这或许就是传统的图片建模方法的不完美之处。
本文提出以一种更加灵活的方式来处理图片：计算机视觉的一个基本任务是识别图像中的物体。由于图片中的物体通常不是形状规则的方形，所以经典的网格表示或者序列表示在处理图片时显得冗余且不够灵活。比如一个对象可以被视为由很多部分的组合：例如，一个人可以粗略地分为头部、上身、手臂和腿，这些由关节连接的部分自然形成一个图结构。