【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_协方差矩阵

简介:
论文从白化变换的角度出发解决语义分割中的域适应问题(训练和测试时,场景、天气、季节等不一样的问题)。

1. 理论基础

1.1 白化变换

白化变换可参考维基百科:Whitening_transformation.

首先 X ∈ R C × H W X\in R^{C\times HW} X∈RC×HW表示C通道,H高度,W宽度的特征矩阵。

白化变换后的矩阵 X ~ \tilde{X} X~ 满足 X ~ ⋅ X ~ T = ( H W ) ⋅ I ∈ R C × C \tilde{X}\cdot \tilde{X}^{T}=(HW)\cdot I \in R^{C\times C} X~X~T=(HW)⋅I∈RC×C,就是 X ~ \tilde{X} X~和 X ~ T \tilde{X}^{T} X~T 的积为单位矩阵 I I I

白化变换矩阵 X ~ \tilde{X} X~的求解为:
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_白化变换_02
其中 u u u为均值, Σ u \Sigma _{u} Σu​表示协方差矩阵,二者的计算方式:
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_Robustnet_03
论文证明协方差矩阵 Σ u \Sigma _{u} Σu​和单位矩阵 I I I的算术平均值越小在图像转图像的任务中有更好的效果
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_方差_04

1.2 Instance Whitening Loss

【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_语义分割_05
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_语义分割_06
X s X _s Xs​是经过InstanceNorm2d标准化的特征。 Σ s \Sigma_s Σs​表示协方差矩阵。于是instance whitening (IW) loss为:
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_语义分割_07
其中的 M M M就是一个上三角的mask矩阵。
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_协方差矩阵_08

1.3 Margin-based relaxation of whitening loss

上面的loss要求协方差矩阵的上三角部分全部为0,这样没有一定的冗余。可以在前面的基础上加上一定的余量 δ \delta δ。
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_Robustnet_09

1.4 Separating Covariance Elements

再深入一步,协方差矩阵 Σ s \Sigma_s Σs​其实可以在分解为:特定领域的样式和领域不变样式。我们更多的应该关注引起图像风格变换的数据

这里假设我们的风格变换包括:颜色调整和高斯模糊。首先我们的网络先训练5个epoch,然后在第6个epoch分别计算原图图像增强(颜色调整,高斯模糊)协方差矩阵的方差
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_白化变换_10
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_白化变换_11
我们假设方差矩阵 V V V意味着相应的协方差对光度变换的灵敏度.这意味着具有高方差值的协方差元素包含特定于领域的样式,如颜色和模糊。为了得到这些值,我们采用k-means对方差矩阵 V V V进行聚类(2个类别),然后得到方差值高的idx。
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_Robustnet_12
最后的loss定义为:
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_Robustnet_13

2. 网络细节

网络只是在前3个stage上计算了 I S W ISW ISW用于计算loss,前面层的低层特征更丰富。
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_方差_14

3. 效果

用cityscape训练,用BDD-100K数据计算ISWloos
【语义分割论文阅读】——RobustNet: Improving Domain Generalization in Urban-Scene Segmentation_Robustnet_15

总结

  • 通过白化变换出发解决语义分割的域适应问题。
  • 不需要额外的标注数据,值得尝试。