Simon, M., Amende, K., Kraus, A., Honer, J., Samann, T., Kaulbersch, H., Milz, S., & Gross, H. M. (2019). Complexer-YOLO: Real-time 3D object detection and tracking on semantic point clouds. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 0–0. https://doi.org/10.1109/cvprw.2019.00158
论文中文题目:Complexer-YOLO: 实时三维物体检测与语义点云跟踪
摘要
准确检测三维物体是计算机视觉中的一个基本问题,对自动驾驶、增强/虚拟现实以及许多机器人应用具有巨大影响。在这项工作中,我们提出了一种新颖的神经网络,将最先进的三维检测器与视觉语义分割融合在自动驾驶的背景下。此外,我们引入了尺度-旋转-平移分数(SRTs),这是一种快速且高度可调参数的评估指标,用于比较物体检测结果,从而将推理时间提高了20%并将训练时间减半。此外,我们还应用了最先进的在线多目标特征跟踪技术,对物体测量进行跟踪,以进一步利用时间信息提高准确性和鲁棒性。我们在KITTI上的实验证明,在所有相关类别中,我们取得了与最先进技术相同的结果,同时保持性能和准确性之间的权衡,并仍然能够实时运行。此外,我们的模型是第一个将视觉语义与三维物体检测融合的模型。
创新点:
1、优化ENet模型(暂未研究,原文见:Efficient Semantic Segmentation for Visual Bird’s-eye View Interpretation);
2、体素化输入;
3、SRT;
4、多目标跟踪(暂未研究)。
流程:
1、将点云数据体素化;同时利用ENet对rgb图像进行语义分割;
2、将语义信息的点投影到体素化点云上,从而生成带语义信息的体素化点云;
3、用于3D多类预测的真