无监督图像分割R语言图像无监督分类

转载

mob64ca140c3859 2024-03-06 08:06:29

文章标签 无监督图像分割R语言分类机器学习计算机视觉 sed 文章分类 R语言后端开发

无监督图像分类技术

1.基于深度学习

参考论文：A survey on Semi-, Self- and Unsupervised Techniques in Image Classification

1.1 目标

leverage unlabeled data in numerous ways:

semi-supervised
self-supervised
weakly-supervised or metric learning

makes the training with few labels more robust or in some rare cases even surpasses the supervised cases.
close the gap between semi-supervised and supervised learning or even surpass these results

1.2 方向

unsupervised
输入只有样本没有标签，损失函数需要的一切参数都由输入样本生成
semi-supervised
输入的样本有一部分是有标签的，另一部分没有标签，通常损失函数=有监督损失函数+无监督损失函数
self-supervised
首先对无标签数据进行pretext task，在进行微调的时候需要用到有标签数据
即先利用pretext学习unlabeled数据的表征，pretext是无监督的，然后再fine-tuned（可利用标签），可视为两阶段子任务。
weakly-supervised
弱监督的概念包括三种：

有部分标签（半监督）
有粗糙的标签
有错误的标签

metric-learning（or相似度学习）
通过对旋转角度、相对位置等的学习来实现对图片内容理解的学习

1.3 Underlying Concepts

I（自信息）
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ic6TSIJA-1621849630039)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_f5980eea285f6cb0be5342b8e1e2a6d8.png)]
Cross-entropy (CE)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jq9owEYO-1621849630042)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_d7b1b3037d2ef7e1ff733b118faacf3b.png)]
最小化熵只会加强神经网络的预测效果，不能单独使用。如果将其单独用作一损失，则预测效果会退化。
Kullback-Leibler divergence (KL)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LOjcr4BC-1621849630045)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_bd9b21b422a0840ffa95529987337568.png)]
Mean Squared Error (MSE)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hA2D6NxA-1621849630047)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_5b76dc1a1a8bc7547e0f6c0c297d1fad.png)]
Mixup(混合增强)
将不同类之间的图像进行混合，从而扩充训练数据集，通常有益于监督学习
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BbPfWCxO-1621849630048)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_2512165302ab8bcde7acb731fb9b8d56.png)]
Mutual Information （MI，互信息）
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jEStZUll-1621849630049)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_8d85f780c2c54b0d5d1499a70b6ead8b.png)]
可以看出，如果X与Y独立，则P(X,Y)=P(X)P(Y)，I(X,Y)就为0，即代表X与Y不相关
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Swhy97qQ-1621849630051)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_e5ebdae05a0ed126c8ed3cabdc8640d6.png)]
H(Y|X)则表示在已知X的情况下，Y的不确定度，
I(X;Y)则表示由X引入而使Y的不确定度减小的量，因而如果X,Y关系越密切，I(X;Y)越大，I(X;Y最大的取值是H(Y)，也就是说，X,Y完全相关，由于X的引入，Y的熵由原来的H(Y)减小了I(X;Y)=H(Y)，变成了0，
也就是说如果X确定，那么Y就完全确定了。
而当X,Y独立时，I(X;Y)=0,引入X，并未给Y的确定带来任何好处。
Overclustering
if we have k classes in the supervised case we also use k clusters in the unsupervised case. Research showed that it can be beneficial to use more clusters than actual classes k exist.
Virtual Adversarial Training (VAT)
adversarial transformation maximizes the distance between an image and a transformed version of it over all possible transformations.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SP5jLFdw-1621849630053)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_60f2f6f023717272eee0e87c0b703c2b.png)]
pseudo-labels(伪标签)
将神经网络对未知数据的预测作为标签，然后两种数据共同用于最优化CE loss

1.4 方法

方法对比

评价标准
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bjFOIreM-1621849630055)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_abee70dfad0a815915939d7d679116b8.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hASFHzBa-1621849630056)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_49a472fe82eecaf4b646b5d3215e1fe4.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ht47WuCF-1621849630059)(http://codimd.iap.wh-a.brainpp.cn/uploads/upload_477f0f595c15a2639533240842c1cfba.png)]