渲染(render)

渲染来源于计算机图形学,指的是将模型转化为数字图像进行显示的过程,广泛应用于特效和游戏制作。GPU(graph processing unit)简单翻译是图形处理单元,这里的graph指的就是计算机图形。在特效和游戏制作中,会构建出各种2D或者3D模型;进行显示的时候,就可以把显示器看作一个视窗,上面每一个像素映射到这些模型上,进行采样和计算,得出的就是显示器的显示内容。这个过程就是渲染,主要方法有光栅化等。

现有图像分割的问题

在图像分割中,卷积操作都是基于一个规则的形状,比如3x3的正方形卷积核。在对象的边缘上进行卷积的时候,会对该对象内部过采样,同时对图像的边界欠采样,导致分割的边缘过于平滑。
现有的解决方法是在低分辨率的图像上进行分割,因为低分辩的图像边缘本就很模糊。这种方法不能满足对高分辨率图像分割的需求。

创新点和方法

对于分割出的低分辩率图像,用双线性插值法上采样为高分辨率的图像,再对目标边缘的点进行渲染,提升分割精度。

GPU渲染出的纹理转yuv 渲染gpu啥意思_GPU渲染出的纹理转yuv


论文的网络主要是在Mask-RCNN网络上进行对比和更改,网络示意图如所示。

在头部的特征提取网络中提取出特征图,看作是计算机图形学中的模型,每个特征图可以看成是模型的特征向量,也就是图中的fine-gained feature。对proposal出的区域进行分割的结果称作粗糙的预测结果,对应图中coarse prediction。

对粗糙的预测结果用双线性插值法进行上采样,这样在图像的边缘上,会出现确定性不高的点。选取不确定最高的一些点,把这些点分别对应到fine-grained features 上面,对每个通道上最近的四个点进行双线性插值计算,再与不确定点组成一个向量。最后采用MLP(Multilayer Perceptron,多层感知机)进行分类。

个人理解

个人感觉文中方法与Unet网络的思路有一个共通点,都是利用low-level的特征图去还原图像分割的边缘。不同的是,文中方法是基于特定点的操作(point-wise),而且方法来源于计算机图形学中的渲染,为语义分割的边缘恢复提供了另一个思路。