该论文借鉴图像物体检测中的Faster-RCNN的思想,文章采用3D卷积来获取视频的时序信息,然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox,也就是视频中待检测动作的时间段。

一、网络结构

R-C3D的网络结构如下图所示:

3G网SGN架构 3g网络结构图_3D

从上图可以看出,网络由三个部分组成,一个是共享的卷积层(3D ConvNet),一个是类似于Faster-RCNN的rpn层(Proposal Subnet),一个是Faster-RCNN的roi层(Classification Subnet)。下面来详解介绍一下三个结构。

1.1 3D卷积特征提取网络

这个共享的卷积层主要是用来获取时序和空间上的特征信息,网络的结构采用的是C3D的网络(用于视频分类的一个网络)。

网络的输入为RGB三通道的图像帧,输入维度为3G网SGN架构 3g网络结构图_卷积_02(3G网SGN架构 3g网络结构图_3D_03),经过C3D网络的conv1a到conv5b后,网络输出维度变为3G网SGN架构 3g网络结构图_卷积_04(512为网络的输出维度)。文章中输入的H、W为112,L是边长的只受限于内存或者显存大小。

1.2 Temporal Proposal Subnet

经过C3D网络可以得到维度为3G网SGN架构 3g网络结构图_卷积_04的输出,在Proposal Subnet里面经过一个kernel size为3G网SGN架构 3g网络结构图_全连接_06的3D卷积核来增加时序维度的感受野,之后再经过一个大小为3G网SGN架构 3g网络结构图_卷积_07的max pooling得到维度为3G网SGN架构 3g网络结构图_卷积_08的特征。

3G网SGN架构 3g网络结构图_卷积_08的输出特征在时序维度上,每一个时间点上都可以认为是一个anchor点,如果每个anchor点上预定义K个anchor框,那么该特征就可以获得3G网SGN架构 3g网络结构图_3D_10个anchor框。将这些anchor框截取的特征输入给两个3G网SGN架构 3g网络结构图_卷积_11的卷积,可以获得两个结果,一个是对框的回归,一个是框是否为正样本的分类结果。

1.3 Activity Classification Subnet

activity classification stage包含三个主要功能:

  1. 从1.2中得到的Proposal中选取合适的Proposal
  2. 根据选择好的Proposal,利用3维的RoI pooling提取出对应的固定大小的特征
  3. 基于提取出的固定大小的特征得到动作的类别和回归出更精确的动作边界

1.3.1 Proposal的选择

经过Temporal Proposal Subnet阶段后,可以得到大量的Proposal,类似于faster rcnn,利用nms筛选出高质量的Proposal,nms的阈值定位0.7。

1.3.2 3D RoI Pooling

经过nms筛选出的Proposal,可以在3D卷积得到的特征(特征维度为3G网SGN架构 3g网络结构图_卷积_04)中截取对应的特征区域,类似于faster rcnn的RoI pooling,文章使用3D RoI pooling,文章pooling将时序维度、H维度、W维度分别划分为1、4、4,所以经过Proposal的截取得到维度为3G网SGN架构 3g网络结构图_卷积_13的特征,再经过3D RoI pooling后输出维度为3G网SGN架构 3g网络结构图_3D_14的特征。

1.3.3 输出动作类别与边界

在经过3D RoI pooling后输出维度为3G网SGN架构 3g网络结构图_3D_14的特征,输入两个全连接层,然后分别送入两个全连接,一个用于分类一个用于回归。

二、训练阶段的设置

对于Temporal Proposal Subnet中正负样本的定义如下

  1. 与gt的IoU大于0.7的anchor segment定义为正样本
  2. 与某个gt的IoU是最大的,该anchor segment为正样本
  3. anchor与所有gt的IoU都小于0.3那么该anchor为负样本
  4. 其它anchor不参与训练
    该阶段正负样本控制在1:1进行网络的训练。

对于 Activity Classification Subnet中正负样本定义如下

  1. 某个Proposal与某个gt的IoU最大,且IoU大于0.5则该Proposal为正样本
  2. 某个Proposal与所有的gt的IoU都小于0.5,则该Proposal为负样本
    该阶段正负样本控制在1:3进行网络训练。
三、推断阶段的设置
  1. 首先经过Temporal Proposal Subnet,对anchor进行边界回归和正负样本的判断,这样就得到了大量的Proposal
  2. 得到的Proposal经过阈值为0.7的nms得到质量好的Proposal
  3. 根据高质量的Proposal截取对应范围的特征,送入Activity Classification Subnet,得到时序检测框和对应的类别
  4. 将得到的检测框经过阈值为0.1的nms得到最终的结果
四、loss计算

loss的计算和fasterrcnn也是很类似的,无论是emporal Proposal Subnet还是Activity Classification Subnet,分类采用softmax loss, 回归采用smooth l1 loss。同fasterrcnn回归loss根据训练的数量加入了一下权重的操作,用公式表示如下:
3G网SGN架构 3g网络结构图_3G网SGN架构_16
其中3G网SGN架构 3g网络结构图_3G网SGN架构_17表示训练的batchsize,3G网SGN架构 3g网络结构图_卷积_18表示anchor或者Proposal的数量,且只有anchor或者Proposal为正样本时才计算回归的loss值。回归也是回归一个片段的中心点位置的3G网SGN架构 3g网络结构图_全连接_19和片段长度的3G网SGN架构 3g网络结构图_全连接_19值,如下式表示
3G网SGN架构 3g网络结构图_全连接_21
3G网SGN架构 3g网络结构图_卷积_22
上式中,3G网SGN架构 3g网络结构图_3D_233G网SGN架构 3g网络结构图_卷积_24分别代表anchor或Proposal的中心和时长,3G网SGN架构 3g网络结构图_全连接_253G网SGN架构 3g网络结构图_3D_26代表gt的中心和时长