回顾一下医学图像深度学习面临的三个挑战

三个挑战

我们将讨论医学图像训练算法的三个关键挑战:类不平衡挑战、多任务挑战和数据集大小挑战。对于每一个挑战,我们将介绍一到两种应对方法。

  • 类别不平衡:可以使用加权的 loss weighted loss, 或者是均衡采样(resampling)
  • 多任务: 多标签loss
  • 数据集大小: 迁移学习 + 数据增强

类别不平衡和多任务挑战已经详细描述过了。让我们看看第三个挑战,即数据集大小挑战。

对于许多医学成像问题,选择的结构是卷积神经网络,也称为ConvNet或CNN。

它们被设计用来处理像x射线一样的二维图像。但这些变体也非常适合于医学信号处理或像CT扫描这样的3D医学图像。

我们将在未来一周进行研究。一些卷积神经网络结构,如Inception、ResNet、DenseNet、ResNeXt和EfficientNets已经被提出,在图像分类中得到了广泛的应用。

医学图像人工智能专项课程-深度学习用于疾病诊断-第一课第一周13-15节-迁移学习+数据增强_迁移学习

这些体系结构由各种构建块组成。在医疗问题中,标准是在期望的任务上尝试多个模型,看看哪一个最有效。

挑战在于,所有这些体系结构都需要大量的数据,并从图像分类数据集中找到的数百万个示例中获益。

在医学问题上,如果没有上百万的例子,我们怎么还能应用这些技术呢?

主要有两种办法:

1 预先训练网络 pretraining

一种解决方案是预先训练网络。

医学图像人工智能专项课程-深度学习用于疾病诊断-第一课第一周13-15节-迁移学习+数据增强_数据_02

这里的想法是先通过自然图像建立网络,然后学习识别对象,如企鹅、猫或狗,然后将这个网络作为学习的起点,通过复制学习到的特征。然后,该网络可以进一步训练,以查看胸部X光片,并确定是否存在疾病。

这个过程的想法是:当我们学习识别猫或狗的第一个任务时,网络将学习一般特征,这将有助于它学习医学任务。

这方面的一个例子可能是,有助于识别企鹅边缘的特征,也有助于识别肺部的边缘,从而有助于识别某些疾病。

当我们把这些特征转移到我们的新网络中时,这个网络就可以有一个更好的起点来学习新的胸部X线解释任务。

第一步称为预训练(pretraining),第二步称为微调(fine-tuning)。

一般来说,网络的早期层捕获的是可概括的低级图像特征,而后一层则捕获更高级或更具体的任务细节。

例如,早期的层可能会了解到物体的边缘,这可能对以后的胸部X光检查有帮助。但后面的几层,可能会学习如何识别企鹅的头部,对胸部X光片的判读可能没有用处。

所以当我们在胸部X光片上对网络进行微调时,我们可以冻结浅层所学的特征,而只需微调深层

在实践中,两个最常见的设计选择是一个,微调所有图层;二,只微调后面或最后一个图层,而不微调前面的图层。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BskwTHqj-1626014561421)(https://files.mdnice.com/user/15745/535fc0d2-842c-49d4-b736-c984e2bb58d3.png)]

这种预训练和微调的方法也称为迁移学习,是解决小数据集挑战的有效方法。

2 数据增强 生成更多样本

让我们谈谈数据集大小挑战的第二个解决方案。这样做的目的是欺骗网络,让他们认为我们有比实际情况更多的训练例子。

在我们将一张X射线图像传送到网络之前,我们可以对其进行转换(transform)。我们有几种选择。

我们可以对它进行旋转、平移、放大,或者更改亮度或对比度,或者应用这些变换的组合。这种方法称为数据扩充(data augmentation)。

医学图像人工智能专项课程-深度学习用于疾病诊断-第一课第一周13-15节-迁移学习+数据增强_迁移学习_03

在实践中,有两个问题驱动着我们选择的数据增强方法。

第一个问题是,我们是否认为数据增强方法反映了将有助于模型概括测试集以及真实世界场景的变化。

例如,我们可能认为在自然X射线中我们可能会看到对比度的变化,所以我们可能会有一个改变图像对比度的变换。

第二个设计选择是验证我们的数据增强是否保持标签不变。

例如,如果我们在横向翻转患者的X光片,这意味着将左侧翻转到右侧,右侧翻转到左侧,那么他们的心脏将出现在图像的左侧。这是身体的右边。然而,正常的标签将不再适用,因为这实际上是一种罕见的心脏病,称为右心,你的心脏指向你的胸部右侧,而不是左侧。所以这不是一个保留标签的转换。

医学图像人工智能专项课程-深度学习用于疾病诊断-第一课第一周13-15节-迁移学习+数据增强_数据集_04

这里的关键是我们想让网络学会通过这些变换来识别仍然具有相同标签而不是不同标签的图像。

除了X光之外,还有其他有用的数据扩充程序用于其他任务。例如,旋转和翻转对于训练检测皮肤癌的算法很有用。

在组织病理学中,真实世界变化的一个主要来源是在这些显微图像中看到的不同色调的粉红色和紫色。颜色噪音经常被加入,所有这些只是有轻微的不同色调的粉红色和紫色,以帮助网络泛化。

医学图像人工智能专项课程-深度学习用于疾病诊断-第一课第一周13-15节-迁移学习+数据增强_迁移学习_05

此外,旋转和裁剪也是组织病理学图像中有用的数据增强程序。


总结

我们已经研究了加权损失和重采样方法,以解决类不平衡问题。我们已经研究了多标签损失,以便网络能够在胸部X光片中识别多种疾病。我们还介绍了迁移学习和数据扩充过程,作为解决拥有小训练数据集挑战的方法。