CSRNet神经网络主要用于高密度人群图片的人数估计。
前端直接使用预先训练好的VGG16神经网络,
输出图像的大小为原始输入图像的1/8
后端使用空洞卷积神经网络
在保持分辨率的同时扩大感知域, 生成高质量的人群分布密度图。
空洞卷积
- 定义一个二维的空洞卷积如下
x(m,n)是长宽分别为M和N的输入图像信息,经过卷积核w(i,j)得到空洞卷积的输出y(m,n),其中参数r表示空洞率。
如果r=1则空洞卷积就是普通卷积。
实验证明,空洞卷积利用稀疏的卷积核,实现交替卷积和池化操作,在没有增加网络参数和计算规模的前提下增大了感知域,更适合人群密度估计任务。
而普通的卷积操作需要增加卷积层数才能获得更大的感知域,而且也增加了更多的数据操作。
空洞率为r 的空洞卷积操作,K x K的卷积核会被扩大为K+(K-1)(r-1)。
- 前端网络
采用剔除了全连接层的VGG-16网络,并且采用3×3的卷积核。
- 对于相同大小的感知域,卷积核越小,卷积层数越多的模型要优于那些有着更大卷积核且卷积层数较少的模型。
- 为了平衡准确性和资源开销,这里的VGG-16网络采用10层卷积层和3层池化层的组合。
- 后端网络采用六层空洞卷积层,空洞率相同。
- 最后采用一层1×1的普通卷积层输出结果。
- 网络结构如下:
其中所有的卷积层均被填充保持原来大小。表中显示的卷积层的参数被表示成“conv-(卷积核大小)-(通道数)-(空洞率)”,其中最大池化层大小为2×2,步数为2。
1)训练方法
生成密度图:参考的MCNN中的方法。
采用脉冲函数卷积高斯核的方式来定义密度图。假设标注点的位置为xi,那么具有N个头的标签可以被表示为
提出了基于几何适应高斯核的密度图,
====》 密度图是由delta脉冲函数与一个高斯函数卷积得来,这里先卷积再求和
标签H和一个自适应核的高斯核函数进行卷积,这个高斯核函数的方差为β与xi的K个最近邻平均距离的乘积
2)损失函数:最直接的方法进行模型训练即可。前端网络中10个卷积层来自已经训练好的VGG-16,所以只需要进行微调训练。对于其他卷积层的参数采用0.01的标准偏差的高斯初始化。在训练期间,随机梯度下降的学习率固定为1e-6。采用欧氏距离测量我们生成的密度图与真实值的距离。损失函数定义如下:
N表示batch size,Z表示生成的密度图,ZGT表示密度图ground truth
3)评价指标:(平均绝对误差MAE与均方误差MSE)
MSE用来描述模型的准确度,MSE越小则准确度越高,MAE能反映出预测值的误差情况。
N表示一次测试序列中图片的数量,Ci表示对图片Xi的预测人数,CiGT表示真实人数
Zl,w表示在长为L宽为W的密度图中(l,w)处的像素值。4)结果