ResNet原文引用 resnet论文名称

关注 mob64ca1409970a

文章目录

文章目录
0. 前言
1. ResNet V1
2. ResNet V2
3. Wide ResNet
4. ResNext
5. Res2Net
6. iResNet

ResNet原文引用 resnet论文名称

转载

mob64ca1409970a 2024-07-01 15:42:49

文章标签 ResNet原文引用 ide 卷积 Image 文章分类 架构后端开发

文章目录

0. 前言
1. ResNet V1
2. ResNet V2
3. Wide ResNet
4. ResNext
5. Res2Net
6. iResNet
7. ResNeSt

0. 前言

目标：总结残差网络系列论文，老忘记，就记录一下每篇论文的创新点。
论文列表：

ResNet v1: Deep Residual Learning for Image Recognition

第一次提出ResNet结构。

ResNet v2: Identity Mappings in Deep Residual Networks

对原始ResNet结构进行一些测试，找到更合适的结构，主要就是 conv-bn-relu的顺序以及relu的位置

Wide ResNet: Wide Residual Networks

之前的ResNet太“瘦”了，并实验证明“胖”一点的结构也能用

ResNext: Aggregated Residual Transformations for Deep Neural Networks

将Inception的思路引入ResNet，主要就是分组卷积

Res2Net: A New Multi-scale Backbone Architecture

设计用于处理多尺度问题，不仅是分组卷积，前面几组的结果还会作为后续组别的输入。

iResNet: Improved Residual Networks for Image and Video Recognition

改进ResNet的基本结构，即bottleneck结构、shortcut结构。

ResNeSt: Split-Attention Networks

1. ResNet V1

arxiv: Deep Residual Learning for Image Recognition
要解决什么问题？

ResNet 刚被提出来的时候，主要要解决的就是“深层神经网络训练困难”的问题。

从理论上看，深层网络模型效果不会低于浅层网络。例如，假设深层网络前面的结构与浅层网络完全相同，深层网络后面的结果使用Identity Mapping，则可以保证深层网络效果等价于浅层网络。
但实际训练中，如果直接使用一些普通的深层网络，效果却比浅层网络差，这就意味着不是模型本身有问题，而是深层模型训练比浅层困难。

所谓“训练困难”，主要就是梯度消散。

没有ResNet结构的深层网络效果较差的原因不是过拟合（因为训练误差也随着深度增加而增加了）。

用了什么方法解决？

提出了ResNet，即残差网络结构。其基本结构如下图
ResNet有效的一种解释是：由于梯度消散导致训练困难，则通过残差结构保留梯度。
BotteleNet 结构，即上图中右边的结构。

BottleNet应该可以翻译为“瓶颈”结构。
所谓瓶颈，主要指的是channel的数量的变化（先大后小再增大）。以上面右图为例，输入与输出的channel都是256，但前两层的channel是64，这就会减少参数数量。
该结构的目标是减少参数与运算量。

如果输入与输出需要变化channel数量，那就需要对shotcut通道也进行处理。
设计的网络结构如下：

效果如何？

好得一笔。
ResNet50应该是现在最基本的backbone，用在几乎所有CV相关的任务中。
后来设计网络有很多很多都借鉴了这个结构。

还存在什么问题？

而且这种结构一般都比较玄学，一般靠各种完备的实验来证明信结构的优越性，但不能完整解释为什么work。
Wide ResNet论文中提到

ResNet比Inception的泛化能力差一点。
shortcut结构虽然能够保留梯度，但也存在一些问题：

由于使用了shortcut结构，所以block的非shortcut子路其实可以不传递梯度，也就是说，换句话说，每个block能够学习到的东西很少。
从上面可以看出，可能只有一些block能够学到有用的内容，其他很多block其实对最终结果没有什么作用。
上面所说的这个问题在论文 Highway networks 被称为 diminishing feature resue。

2. ResNet V2

arxiv: Identity Mappings in Deep Residual Networks
要解决什么问题？

本质是在 ResNet V1 的基础上进行一些修改，主要思想还是 ResNetV1。
个人感觉是在ResNetV1的基础上又做了一系列实验，寻找更合适的结构。

用了什么方法解决？

改进残差单元，如下图

主要改进方案有两个：将激活层放到旁路，将旁路结构从conv-bn-relu改为bn-relu-conv。

还试验了很多其他结构，最终选择的反正就是最后一个，没花头。
对于上面那张图，在这篇文章中有一些解释：

效果如何？

做了很多实验，证明新的结构比旧的好。

还存在什么问题？

这篇论文感觉比较水，就是一系列实验找了个更好的模型结构。
不可解释，都是实验的结果，但又不知道为什么这样修改比较好。
但我看了PyTorch的ResNet实现，好像都没用这里的东西……

3. Wide ResNet

arxiv: Wide Residual Networks
要解决什么问题？

之前的ResNet可以通过增加深度来提高模型精度。但随着深度的增加，提高的精度越来越少，且训练难度越来越大。
当时的ResNet相关研究主要聚焦于增加网络的“深度”，而不怎么关注“宽度”。

所谓“宽度”，指的是特征图的深度；所谓“深度”，指的是叠加的卷基层/BN层等的数量。
基本上用到的网络都是很“瘦长”的。

与Inception系列比，ResNet系列的泛化性（generalization）较差，即特征用于迁移学习时效率更低。

由于使用了shortcut结构，所以block的非shortcut子路其实可以不传递梯度，也就是说，换句话说，每个block能够学习到的东西很少。
从上面可以看出，可能只有一些block能够学到有用的内容，其他很多block其实对最终结果没有什么作用。
上面所说的这个问题在论文 Highway networks 被称为 diminishing feature resue。

从上面这些问题就引出了本文的目标：如何使用wide deep residual networks来处理深度网络存在的训练问题。

用了什么方法解决？

提出了一个新的block结构：

如图所示，新提出的结构的宽度增加（即前两张图片的卷基层宽度较小，后两张较大）。

基于新的block结构提出了Wide ResNet
在每个block的卷基层之间使用了Dropout。
在设置窟宽度、深度的时候，一般是考虑参数数量。

效果如何？

仅使用16层网络，在多个数据集（CIFAR/SVHN/COCO/ImageNet）上达到最优。

还存在什么问题？

Wide ResNet 现在好像不太常用。
在卷基层中间加上Dropout好像也不常用。
PyTorch的Torchvision中有Wide ResNet的实现，不过也与论文中不完全相同，仅仅是修改了每个block中特征图的深度。

4. ResNext

arxiv: Aggregated Residual Transformations for Deep Neural Networks
github
要解决什么问题？

提到当时视觉识别问题（visual recognition）已经从特征工程（feature engineering）转换为网络设计（network engineering）。
当时的研究还集中在网络结构的设计上，想要同时结合VGG和ResNet的特点。

VGG网络的设计提出了一种新的设计方案：

叠加同样的block从而得到结果。
作者认为这种设计比较好，不会导致在某个数据集上性能好，放到其他数据集上性能不好。

Inception系列模型提出了 split-transformation-merge 策略，注重性能。

当时的网络设计，在增加计算量/参数量的基础上提高性能比较多，很少有参数量/计算量不变但性能提高的。

用了什么方法解决？

设计了一种新的block结构，其中心思想是引入了 cardinality 的概念，我的理解其实就是做分组卷积。

普通ResNet是做三次卷积，channel变化分别是256 -> 64 -> 64 -> 256。
ResNext的做法是将做32组操作（即cardinality参数），每组channel变化是 256 -> 4 -> 4 -> 256，最后将32组的所有结果累加。

在具体实现时，有一些可以修改的地方（从而提高性能）

下图中，b/c就与a完全相同，但性能更好。

提出的ResNext网络结构如下图：

效果如何？
还存在什么问题？

感觉整体idea也没啥，就是加了个分组卷积，效果还不错。

5. Res2Net

arxiv: Res2Net: A New Multi-scale Backbone Architecture
github
要解决什么问题？

主要解决多尺度(multi-scales)的问题。
multi-scale 问题是什么？

在一张图片中，可能出现不同尺寸的多个物体。
一个物体周边的其他物体可能比物体本身蕴含更多信息。
获取不同尺度物体的信息对于一些任务（如语义分隔、颗粒度分类）有很大作用。

之前处理 multi-scale 主要通过 layer-wise representation 来表示。还有通过处理不同尺度的特征图来处理。

用了什么方法解决？

提出了Res2Net Module，结构如下图所示。

该结构为模型超参数多了一个选项，scale dimension，下图为4，即将卷基层分为多少个组。

这种方法 at a more granular level（不知道怎么翻译，更细微的层面）上处理multi-scale问题。

如何理解 res2net module 能够处理 multi-scale 问题？可以从receptive field上理解，上图中分组从左到右的receptive field依次增加。

与其他模型整合，如整合ResNext与SE。整体结构如下图

SE模块如下图
与ResNext整合的意思就是其中的group=1的普通卷积转换为group=c的分组卷积。

效果如何？

替代ResNet后普遍涨点，下面这结果还是带了运行时间的，可以有
Grad-Cam效果都更好了
在关键点识别、目标检测、语义分割中都得到了较好的结果，已经作为mmdetection的backbone。

还存在什么问题？

这种分组卷积都有一个问题，虽然GFLOPs差不多，但实际运行速度肯定有一定下降。

6. iResNet

arxiv: Improved Residual Networks for Image and Video Recognition
github
要解决什么问题？

ResNet是现在常用的backbone，主要就是用于抑制退化问题（随着神经网络层数增加，训练结果变差了）。
ResNet虽然抑制了退化问题，但也存在上升空间。

用了什么方法解决？

iResNet，是 improved residual network 的缩写。
改进ResNet Block的基本结构，如下图：

(a) 是ResNet v1的结构，注意relu的位置，这种结构不利于将信息保留下来。
(b) 是ResNet V2的结构，为了解决上面所说的relu不利于保留信息，所以改变了conv-bn-relu的顺序，且改变了relu的结构，但这样做保留信息的方式太直接了，相当于从一个极端走向另一个极端。
文章总结了之前结构存在的两个问题：

在stage后的数据都没有经过relu，所以随着block数量增加，总体信号变得越来越 unnormalized，这导致训练难度增加。
由于会降低特征图尺寸，每次降低时都会用到 11 卷积来做 projection，四个11连接，但没有任何非线性处理，这会导致训练难度增加。

为了改进上面所说的问题，提出了下图©结构。

改进shortcut结构

shortcut就是在block的输入与输出尺寸有变化时使用。
文章认为 1*1 stride 2 卷积操作会损失75%的特征图信息，而且选择的25%并没有什么依据。
新结构设计的依据有三个：减少信息损失、增加了translation invariance、看作是soft/hard downsampling 的结合

改进 block 的结构

以前用的 bottleneck 结构，是为了减少计算量。
本文引入了分组卷积，在增加channel的保持FLOPs基本上不增加。

效果如何？

有一些与resnet v1比较的结果就不看了……怎么可能比resnet v1差。
下图比较了 resnext，看起来并没有什么优势（参数虽然少了，但FLOPs多了）

还存在什么问题？

FLOPs不增加不代表inference time不增加。
其实我感觉这篇论文结果选择的baseline有点弱了……要比也是跟Res2Net、ResNeXt比吧……比了好像也没有太大优势。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：R语言蛋白孟德尔FDR值 r语言predict结果解读

下一篇：pytorch排序损失 pytorch local rank

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册