自监督学习不是特定的一种算法,而是一类算法,如word2vec,BERT,MOCO,PIRL等都属于自监督学习;
和监督式机器学习一样,自监督学习训练时也需要features和labels,不同之处在于自监督学习的label不需要通过人为标记完成,而是自动生成的;
自监督学习不针对特定应用场景,而是通用性预训练;

PIRL论文阅读_监督学习

题目: 前置不变表示的自监督学习
简称,PIRL:Pretext-Invariant Representations Learning前置不变表示学习

思想:对data augmentation后的图像和其他的图像去做contrastive learning

Invariant:不变的

PIRL论文阅读_监督学习_02

PIRL论文阅读_神经网络_03

Pretext:借口,这里为前置

pretext task(前置任务):在自监督学习中,用于预训练的任务
downstream task(下游任务):用于微调的任务

PIRL论文阅读_图像识别_04

该算法属于图像识别领域的预训练,即不针对特定图像识别应用场景;该算法完成预训练后可通过迁移学习应用到特定场景中去;

该算法的特别之处在于Pretext Invariant Representations(预任务不变表征),即定义一个表征网络N;
图像A经过N得其表征为A_f,对图像A处理(如图所示的拼图重排)后得图像a经过N得其表征为a_f;
经过训练后使得A_f和a_f很相近,接近于没怎么变化,同时A_f和x_f(x≠a)却相差很大。

上图中I是原图像,I_t是图像I处理后的图像。

PIRL论文阅读_监督学习_05

PIRL论文阅读_数据集_06

图像I经res5网络(即ResNet-50的前5层),然后以此进行一次average pooling和一次线性映射得到一个128维的向量表征;
图像I分为3块拼图,每块拼图都分别经res5网络处理后进行一次average pooling, 然后分别进行一次线性映射得到3个总共128维的向量,
将这3个向量随机排序后合并,然后再进行一次线性映射得到一个128维的向量表征;
M Memory Bank和MOCO(另一篇自监督2020的CVPR)中的Memory Bank类似,其保存了所有图像I的f(v_I)表征;针对每一张图像I在多轮训练时,
每一轮训练都会生成一次f(v_I),而Memory Bank中得mI是多次f(v_I)得指数移动平均值;

PIRL论文阅读_神经网络_07

PIRL论文阅读_监督学习_08

PIRL论文阅读_深度学习_09

places205数据集:地点总共包含超过1000万张图片,其中包含400多个独特的场景类别。
该数据集每班具有5000至30,000个训练图像,与实际发生的频率一致。使用卷积神经网络(CNN),Places数据集允许学习用于各种场景识别任务的深层场景特征,
目的是在以场景为中心的基准上建立新的最新性能

iNat:没找到

PIRL论文阅读_监督学习_10