一、VoxelNet
1.特征学习网络(feature learning natwork)
- Group&Sampling:每个网格内部随机采样固定数目的点,不足的则重复
- Voxel Feature Encoding(VFE):全连接层提取点特征,每个点的特征与网格内所有点的特征均值进行拼接,得到新的点特征
- Stacked VFE:重复多次VFE
2.3D卷积网络(convolutional middle layers)
- 提取3D空间特征
- 将高度压缩到1D
3.区域候选网络(region proposal network)
- 类似图像物体检测网络
- U-Shape Net为主干网络
- 分类和回归Head
4.存在的问题
1.数据表示低效 ,大量空白区域
- KITTI数据库一般生成5k-8kVoxel,只有0.5%的Voxel是非空的
- 改进办法:SECOND(采用稀疏卷积)
2.三维卷积计算量巨大
- 改进方法:PIXOR(3D网络压缩到2D)
二、SECOND
1.稀疏卷积避免无效计算
- 中间层采用稀疏卷积
- 其余模块与VoxelNet类似
2.稀疏卷积
- 网格数据表示:稠密—>稀疏
- 卷积操作只在非空的网格进行
三、PIXOR
- PIXOR(ORiented 3D object detection from PIXel-wise neural natwork predictions)
手工设计高度维度的特征
3D->2D:高度维度编程特征通道
可以用2D卷积来提取特征
四、AFDet
1.单阶段,无Anchor
2.Waymo 3D物体检测2021年度的获胜算法
3.算法面的改进
1.轻量级的点云特征提取
- 点云数据转换为BEV视图下的3D网络
- 网格特征:点的反射强度的平均值
- 稀疏的三维卷积进行多阶段特征提取
2.扩大神经网络的感受野
- 自校准的卷积操作(self-calibrated convolution SC-Conv)来扩大感受野
- 在空域的特征通道上引入注意力机制
3.额外的预测分支
- IoU置信度预测
- 关键点预测
五、点视图VS俯视图
1.俯视图
- 输入结构化数据,网格结构简单
- 对量化参数敏感:粗网络导致较大的信息损失,细网络导致较大的计算量和内存使用量
2.点视图
- 没有量化损失,数据比较紧致
- 输入非结构化数据,网络结构复杂,并行处理困难,提取邻域特征困难