新兴的三维目标检测技术在自动驾驶领域中扮演着关键的角色,它通过提供环境感知和障碍物检测等信息,为自动驾驶系统的决策和控制提供了基础。过去的许多学者对该领域优秀的方法论和成果进行了全面的检验和研究。然而,由于技术上的不断更新和快速进步,对该领域的最新进展保持持续跟踪并坚持跟随知识前沿,不仅是学术界的一项至关重要任务,同时也是应对新兴挑战的一项基础。本文回顾了近两年内的新兴成果并针对该方向中的前沿理论进行系统性的阐述。首先,简单介绍三维目标检测的背景知识并回顾相关的综述研究。然后,从数据规模、多样性等方面对KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)等多个流行的数据集进行了归纳总结,并进一步介绍相关基准的评测原理。接下来,按照传感器类型和数量将最近的几十种检测方法划分为基于单目的、基于立体的、基于多视图的、基于激光雷达的、基于多模态5个类别,并根据模型架构或数据预处理方式的不同对每一种类别进行更深层次的细分。在每一种类别的方法中,首先对其代表性算法进行简单回顾,然后着重对该类别中最前沿的方法进行综述介绍,并进一步深入分析了该类别潜在的发展前景和当前面临的严峻挑战。最后展望了三维目标检测领域未来的研究方向。
目的随着视觉感知技术的快速发展,无人驾驶已经可以应用于简单场景。但是在实际的复杂城市道路应用中,仍然存在一些挑战,尤其是在其他车辆的突然变道、行人的闯入、障碍物的出现等突发紧要场景中。然而,真实世界中此类紧要场景数据存在长尾分布问题,导致数据驱动为主的无人驾驶风险感知面临技术瓶颈,因此, 本文提出一种基于平行视觉的风险增强感知方法。方法该方法基于交互式ACP(artificial societies,computational experiments,parallel execution)理论,在平行视觉框架下整合描述、指示、预测智能,实现基于视觉的风险增强感知。具体地,基于描述与指示学习,在人工图像系统中引入改进扩散模型,设计背景自适应模块以及特征融合编码器,通过控制生成行人等危险要素的具体位置,实现突发紧要场景风险序列的可控生成;其次,采用基于空间规则的方法,提取交通实体之间的空间关系和交互关系,实现认知场景图的构建;最后,在预测学习框架下,提出了一种新的基于图模型的风险增强感知方法,融合关系图注意力网络和Transformer编码器模块对场景图序列数据进行时空建模,最终实现风险的感知与预测。结果为验证提出方法的有效性,在MRSG-144(mixed reality scene graph)、IESG(interaction-enhanced scene graph)和1043-carla-sg(1043-carla-scenegraph)数据集上与5种主流风险感知方法进行了对比实验。提出的方法在3个数据集上分别取得了0.956、0.944、0.916的F1-score,均超越了现有主流方法,达到最优结果。结论本文是平行视觉在无人驾驶风险感知领域的实际应用,对于提高无人驾驶的复杂交通场景风险感知能力,保障无人驾驶系统的安全性具有重要意义。