无监督图像分类技术

1.基于深度学习

参考论文:A survey on Semi-, Self- and Unsupervised Techniques in Image Classification

1.1 目标

  • leverage unlabeled data in numerous ways:
  • semi-supervised
  • self-supervised
  • weakly-supervised or metric learning
  • makes the training with few labels more robust or in some rare cases even surpasses the supervised cases.
  • close the gap between semi-supervised and supervised learning or even surpass these results

1.2 方向

  • unsupervised
    输入只有样本没有标签,损失函数需要的一切参数都由输入样本生成
  • semi-supervised
    输入的样本有一部分是有标签的,另一部分没有标签,通常损失函数=有监督损失函数+无监督损失函数
  • self-supervised
    首先对无标签数据进行pretext task,在进行微调的时候需要用到有标签数据
    即先利用pretext学习unlabeled数据的表征,pretext是无监督的,然后再fine-tuned(可利用标签),可视为两阶段子任务。
  • weakly-supervised
    弱监督的概念包括三种:
  • 有部分标签(半监督)
  • 有粗糙的标签
  • 有错误的标签
  • metric-learning(or相似度学习)
    通过对旋转角度、相对位置等的学习来实现对图片内容理解的学习

1.3 Underlying Concepts

  • I(自信息)
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ic6TSIJA-1621849630039)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_f5980eea285f6cb0be5342b8e1e2a6d8.png)]
  • Cross-entropy (CE)
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jq9owEYO-1621849630042)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_d7b1b3037d2ef7e1ff733b118faacf3b.png)]
    最小化熵只会加强神经网络的预测效果,不能单独使用。如果将其单独用作一损失,则预测效果会退化。
  • Kullback-Leibler divergence (KL)
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LOjcr4BC-1621849630045)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_bd9b21b422a0840ffa95529987337568.png)]
  • Mean Squared Error (MSE)
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hA2D6NxA-1621849630047)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_5b76dc1a1a8bc7547e0f6c0c297d1fad.png)]
  • Mixup(混合增强)
    将不同类之间的图像进行混合,从而扩充训练数据集,通常有益于监督学习
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BbPfWCxO-1621849630048)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_2512165302ab8bcde7acb731fb9b8d56.png)]
  • Mutual Information (MI,互信息)
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jEStZUll-1621849630049)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_8d85f780c2c54b0d5d1499a70b6ead8b.png)]
    可以看出,如果X与Y独立,则P(X,Y)=P(X)P(Y),I(X,Y)就为0,即代表X与Y不相关
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Swhy97qQ-1621849630051)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_e5ebdae05a0ed126c8ed3cabdc8640d6.png)]
    H(Y|X)则表示在已知X的情况下,Y的不确定度,
    I(X;Y)则表示由X引入而使Y的不确定度减小的量,因而如果X,Y关系越密切,I(X;Y)越大,I(X;Y最大的取值是H(Y),也就是说,X,Y完全相关,由于X的引入,Y的熵由原来的H(Y)减小了I(X;Y)=H(Y),变成了0,
    也就是说如果X确定,那么Y就完全确定了。
    而当X,Y独立时,I(X;Y)=0,引入X,并未给Y的确定带来任何好处。
  • Overclustering
    if we have k classes in the supervised case we also use k clusters in the unsupervised case. Research showed that it can be beneficial to use more clusters than actual classes k exist.
  • Virtual Adversarial Training (VAT)
    adversarial transformation maximizes the distance between an image and a transformed version of it over all possible transformations.
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SP5jLFdw-1621849630053)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_60f2f6f023717272eee0e87c0b703c2b.png)]
  • pseudo-labels(伪标签)
    将神经网络对未知数据的预测作为标签,然后两种数据共同用于最优化CE loss

1.4 方法

方法对比

  • 评价标准
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bjFOIreM-1621849630055)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_abee70dfad0a815915939d7d679116b8.png)]
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hASFHzBa-1621849630056)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_49a472fe82eecaf4b646b5d3215e1fe4.png)]
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ht47WuCF-1621849630059)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_477f0f595c15a2639533240842c1cfba.png)]
1.4.1 One-Stage-Semi-Supervised