图像识别标签是什么

转载

mob6454cc63081f 2024-09-11 14:56:04

文章标签 图像识别标签是什么特征向量建模条件概率 文章分类 计算机视觉人工智能

笔记

旷视研究院的研究员提出了如下模型,用于图像的多标签分类.

图像识别标签是什么_条件概率

该模型与一般模型不一样的一点是,它的分类器是生成的,因此它有一个专门生成分类器的子网络.

网络主要由两部分构成

特征表示子网络,该网络由ResNet-101构成,即蓝色框圈出的部分.
分类器生成子网络,该网络由3个GCN层串联组合而成,即红色框组成部分.

动机

基于标签的共现模式，旷视研究员设计了一个全新的标签相关系数矩阵，可显式地用 GCN建模标签相关性，让节点的特征在更新时也能从相关联的节点（标签）吸收信息。
由于从词嵌入向量到分类器的映射参数在所有类别中是共享的，所以习得的分类器能够在词嵌入空间中（语义相关的概念在词嵌入空间中彼此临近）保留较弱的语义结构。与此同时，对于可以对标签依赖性进行隐式建模的分类器函数，所有分类器的梯度都会对它产生影响。

GCN层

每个标签可以看做是一个特征向量.
在第一层的时候,标签的特征向量是 $图像识别标签是什么_特征向量_02$ 维度的,刚好是一个词嵌入向量.
在第二层的时候,标签的特征向量是 $图像识别标签是什么_条件概率_03$ 维度的,是经过了一个转换矩阵 $图像识别标签是什么_特征向量_04$ 的映射.
在第三层的时候,标签的特征向量是 $图像识别标签是什么_图像识别标签是什么_05$ 维度的,也是经过了一个转换矩阵 $图像识别标签是什么_建模_06$ 的映射,映射完之后,每个标签的特征向量维度刚好和ResNet101抽取到的特征维度相同了,因此可以作为该标签的分类器了.
这对应第2个动机.

至此还未用到标签间的拓扑图结构,也就没有用到标签间的共现关系,因此他们设计了一个共现矩阵 $图像识别标签是什么_建模_07$ ,用于引导信息在标签间的传递.
$图像识别标签是什么_图像识别标签是什么_08$ ,其中 $图像识别标签是什么_图像识别标签是什么_09$ 是标签的数量.
矩阵是一个先验矩阵,不需要被学习.
这就对应了第1个动机