使用vgg19进行图像分类 gcn 图像分割

转载

mob64ca14154457 2024-08-18 13:02:49

文章标签 使用vgg19进行图像分类深度学习人工智能图像分割卷积网络卷积译码器 文章分类 计算机视觉人工智能

论文地址：https://arxiv.org/abs/1703.02719

论文代码：https://github.com/ZijunDeng/pytorch-semantic-segmentation [PyTorch]

1. Introduction

本文的架构是：使用 ResNet 作为编译器，而 GCN 和反卷积作为译码器。还使用了名为 Boundary Refinement 的残余模块。

语义分割可以被认为是一个像素级的分类问题。在这个任务中有两个挑战:

分类:一个与特定语义概念相关的对象应该被正确标记
定位:像素的分类标签必须与输出分值图中的适当坐标对齐。

一个设计良好的分割模型应该同时处理这两个问题。

然而，这两个任务自然是矛盾的。对于分类任务，模型被要求对各种转换如平移和旋转保持不变。但是对于本地化任务，模型应该是转换敏感的，即，精确定位每个语义类别的每个像素。

使用vgg19进行图像分类 gcn 图像分割_深度学习人工智能图像分割

A:分类网络; B:传统的分割网络，主要为定位设计; C:我们的全局卷积网络。

2 overall Framework

使用vgg19进行图像分类 gcn 图像分割_深度学习人工智能图像分割_02

在Large Kernel matters 提出了一种改进的网络结构，称为全局卷积网络(GCN)，同时处理上述两个挑战。我们遵循两个设计原则:

从局部的角度来看，模型结构应该是完全卷积的，以保留局部的性能，并且不应该使用完全连接的或全局的池层，因为这些层将丢弃局部信息;
从分类的角度来看，在网络架构中应该采用大的内核大小，以便在feature map和每个像素级的分类器之间建立紧密的连接，从而提高处理不同转换的能力。

这两个原则成就了GCN，如图A所示。使用FCN[25]样结构作为基本框架，使用GCN生成语义得分图。为了使全局卷积实用，我们采用对称、可分离的大滤波器来降低模型参数和计算成本。为了进一步提高目标边界附近的定位能力，我们引入了边界细化块，将边界对齐作为一个残余结构模型，如图 C所示。与CRF-like后处理[6]不同，我们的边界细化块集成到网络中，并进行了端到端的训练。

主要贡献：

我们提出了语义细分的全球卷积网络，它同时明确地解决了“分类”和“局部”
引入边界细化块，进一步提高目标边界附近的定位性能;
我们在两个标准基准上取得了先进的成果，在2012年的PASCAL VOC含量为82.2%，Cityscapes为76.9%

3 Experiment

使用vgg19进行图像分类 gcn 图像分割_译码器_03

使用vgg19进行图像分类 gcn 图像分割_卷积_04

上表中的k即为上图A中的k，可以较明显的可以看出随着k增加效果越好

接下是来排除另外两种增大kernelsize的形式：

使用vgg19进行图像分类 gcn 图像分割_深度学习人工智能图像分割_05

上表中的k为上图C中的k，作者认为参数太多不好优化造成了效果下降。

使用vgg19进行图像分类 gcn 图像分割_译码器_06

上表中的k为上图D中的k，同样通过下面的试验试图说明随着参数的减少，stack的效果越来越差，所以认为kx1这种效果好

文中的另外一个试验，说明GCN主要对提高分类能力有帮助，BR主要对边缘有帮助

使用vgg19进行图像分类 gcn 图像分割_卷积网络_07

使用vgg19进行图像分类 gcn 图像分割_深度学习人工智能图像分割_08

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python监控域名备案域名监控系统

下一篇：Dart swift Dart swift 语法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯