目录
1.目的
2.网络架构部分
2.1整体描述
2.2生成器
2.2.1ResNet
2.2.2 U-net
2.3 鉴别器
3.数据采集和预处理
4..损失函数部分
5.实验和结果
6. 结论
1.目的
这项工作集中于视网膜层分割的挑战性任务,以及更高清晰度和准确性的超分辨率
2.网络架构部分
2.1整体描述
GAN的基线架构由两个相互竞争的网络组成,分别命名为生成器和鉴别器。在这项工作中,生成器的目的是产生OCT输入图像的超分辨分割标签,而鉴别器学习区分真实的真实标签和生成的标签。图1显示了GAN的高级体系结构。下面详细记录了体系结构的每个组件。
2.2生成器
对于我们设计的 GAN,我们采用了两种不同的架构,即U-net 和 ResNet,具有两种不同的上采样模块,即转置和亚像素卷积,以承担分割输入 OCT 图像和超分辨它们 的双重任务。
2.2.1ResNet
ResNet架构是计算机视觉[18]中最具开创性的作品之一,引入了重要的关于跳过连接的基本概念。在下图中,显示了一个残差块,其中一个3×3卷积堆叠在两个1×1卷积之间,绕过块的输入并添加到其输出中。将这些块相互连接,形成了不同大小的ResNet
对于我们的任务,我们评估了两种块类型,将低分辨率特征图上采样到高分辨率:1)为了与残差块保持一致,使用图b中所示的两个换位块的模块进行放大操作。在1x1卷积之间,使用了一个2x2的转置卷积,作为2倍上采样器。残余连接也通过转置卷积以保持空间完整性。2)我们还评估了由[19]推广的亚像素卷积。图像与Cr2×H×W尺寸C通道宽度,H和W空间高度和宽度,子像素卷积将产生一个输出大小C××Wr,r是图像被放大的因素。我们在最后添加了一个亚像素卷积块,其高档因子r为4(这两个块如图3所示)。
2.2.2 U-net
U-Net遵循一种通用的编码器-解码器体系结构,并存在跳过连接来桥接编码器和解码器部分。这导致检索在编码操作过程中提取的特征表示。对于超分辨率的任务,我们比较了转置和亚像素卷积块。前者有2个×2的内核,步幅为2,因此每个块都上升了2倍。此外,上述的前一个块被用于上采样,因子r为4(如图4a和4b所示)。
2.3 鉴别器
为了区分真实的高分辨率图像和生成的图像,我们使用 patchGAN 分类器[14].该网络由几个块组成,每个块包 括一个卷积层、一个 relu 激活函数和一个批量归一化层,它们依次将输入的空间大小减小到N×N大小的补丁,将上述输入分类为实际的地面真实标签或生成的标签。在我们的实验中,贴片的大小被选择为70×70。
3.数据采集和预处理
作为实验,从西弗吉尼亚大学眼科和视觉科学系获得了 45 名 患 者 的 OCT 图 像 。 利 用 Infinity 公 司 的Spectralis OCT 成像平台对每位患者进行了 19 次扫描。这项研究工作集中在视网膜的七层,分别是内界膜(ILM)、RNFL、GCL、内丛状层(IPL)、内核层(INL)、外丛状层(OPL)和外核层(ONL)。总共 855 张 OCT 图像由该领域的专家手工注释(7 层和背景)。
我们应用了数据增强技术来综合扩展数据集。这些技术包括水平翻转、旋转(15度)和空间平移。除了这些传统的增强方法外,数据集受一个滑动作物窗口,每个滑动步骤有75%的重叠,有效地增加了数据集的一个显著因素。对地面真实标签也进行了类似的增加。种植后,每个斑块的大小为224×224。散斑噪声的存在是一个巨大的障碍,因为它破坏了视网膜层之间的边缘。
散斑噪声是什么,为什么会存在?
OCT作为一种利用相干光的干涉来实现对生物组织或工业产品成像的技术,不可避免地会出现散斑噪声现象。散斑作为一种噪声存在于OCT图像中,具体表现为强度较高的随机信号,这类散斑会降低图像的分辨率和对比度,严重影响到了成像的质量和后期对图像进行定量分析的准确性。散斑噪声会降低图像信噪比,掩盖图像细节,使得OCT图像中原本连续清晰的组织结构变得具有较强颗粒感,导致难以分辨,对后续的图像处理、识别等操作带来不良影响。同时,它也限制了OCT系统对疾病诊断或工业检测的能力。因此抑制OCT系统中的散斑噪声对提高OCT成像质量、临床诊断准确率和工业质检具有重要意义。
如何缓解这个问题?
使用了 3x3 窗口的中值滤波器。最重要的是,一个掩模技术被用来使手边的任务的边界更加明显。
4..损失函数部分
lgenerator = LGAN(G)+λLL1(G)+αLDice(G)
其中,λ 和 α 是常数值系数,控制每个相应损失函数的相对重要性,我们通过网格搜索进行微调,使 Dice
和 mIOU 值最大化。
在这项工作中,我们选择了三种不同的损失函数来训练算法,包括对抗损失、生成器重建损失以及骰子损失的添加。这三者的结合有助于模型权重的反向传播和更新。对抗性损失应用于生成器 G 和鉴别器 d。如果 G 的 输入是 x,那么对抗性损失是
LGAN(G)= Ex[log(D(G(x))],(1)
并且用于训练鉴别器,损失函数是:
LGAN (G,D)= Ey[logD(y)] +Ex[log(1D(G(x))],(2)
其中 y 表示实际的基本事实标签。重构损耗是在生成的输出 G(X)和地面真实标签 Y 之间测量的 L1 损耗,给出 为
LL1(G)= Ex[y G(x)]1。(3)
该损失函数帮助生成器合成符合地面真实标签的输出,适当地训练生成器用于期望的任务。
骰子损失
骰子损失是一种损失函数,可以防止普通交叉熵损失中存在的某些限制。
交叉熵的局限性: 当使用交叉熵损失时,标签的统计分布在训练准确性中起着重要作用。标签分布越不平衡,训练就越困难。尽管加权交叉熵损失可以减轻困难,但是改进并不明显,也没有解决交叉熵损失的内在问题。在交叉熵损失中,将损失计算为每个像素损失的平均值,并离散计算每个像素损失,而无需知道其相邻像素是否为边界。结果,交叉熵损失仅在微观意义上考虑损失,而不是全局考虑,这不足以进行图像水平预测。
这个损失函数源自称为 Dice 系数的语义分割度量。求加法逆给出了骰子的损失[20].网络的任务是最小化该函数,使得生成器可以成功地分割图像,从而在根据地面事实进行计算时导致最小的骰子损失。该损失函数充当附加的重建损失,以进一步强调和改善发生器输出的质量。
5.实验和结果
6. 结论
在本文中,我们的目标是使用我们提出的 GAN 架构为视网膜的 OCT 扫描生成超分辨率分割。我们试验了各种架构作为生成器,执行语义分割和超解析分割图像的双重任务。为了进行这种双重训练,我们部署了两种流行的架构 U-Net 和 ResNet,并使用转置卷积和亚像素卷积的附加模块来完成从低分辨率到高分辨率的图像升级任务。我们还研究了 Dice 损失,一个源于 Dice 系数度量的目标函数,作为 GAN 模型的附加损失函数。结果表明,分割和超分辨率双重任务的联合训练提供了有效的结果增强。Dice 损失的引入强调了重构性能,并且一致地改进了经验结果。