摘要:目的路面缺陷检测是道路维护和管理的重要环节,人工智能技术能够极大地提升路面缺陷检测的性能和效率,为解决当前路面缺陷检测算法难以满足在计算资源受限设备上进行实时检测的问题,本文基于YOLOv8(you only look once version 8)目标检测框架,结合部分卷积(partial convolution)与初始深度卷积(inception depthwise convolution)机制提出了一种轻量级的路面缺陷检测算法YOLOv8n-PIVI。方法该算法在骨干特征提取网络引入PartialBlock降低模型参数量,同时引入IDBlock(inception depthwise block)丰富网络的特征提取能力并进一步降低计算复杂度;在特征融合网络引入VanillaBlock减少网络参数的同时优化网络特征融合能力;引入ID-Detect(inception depthwise detect)检测头,极大降低模型的计算复杂度并优化检测头对于不同尺度特征的解析能力。结果在Pothole Dataset数据集上的实验结果显示,本文提出的算法mAP50(mean average precision at 50% intersection over union)达到了0.55,较基线算法提升了3.5个百分点,FPS(frames per second)达到了243,较基线算法提升了43,并且模型参数量和计算量仅为基线67%和72%,模型参数文件由6.3MB(mega byte)降低至4.3MB,内存占用较原模型降低了近1/3。在与目标检测领域较经典算法的对比实验中,本文所提出的算法在同参数量级模型中检测精度、计算复杂度及FPS较其他算法都有一定优势。此外,在RDD2022(road damage detector 2022)-China-MotorBike数据集和VOC2012(visual object classes 2012)数据集上的实验结果表明,本文所提算法具有良好的适应性和鲁棒性,能够适应不同的目标检测任务。结论综合实验结果表明,本文提出的算法能够以轻量级的计算资源需求,实现更高的目标检测性能,模型参数文件大小低至4.3MB,并且具有良好的适应性和鲁棒性,有助于降低路面缺陷检测算法的使用限制,拓宽路面缺陷检测系统的适用场景。
摘要:目的地点识别是机器人利用实时扫描到的点云数据进行定位和自主导航的核心。现有的针对大规模点云的地点识别方法往往忽略了真实驾驶中存在的旋转问题。当查询场景发生旋转时,这些方法识别性能会显著下降,这严重阻碍了它们在复杂现实场景中的应用。因此,本文提出一种有效的面向三维点云的具有旋转感知地点识别网络(Efficient Rotation-Aware Network for Point Cloud based Place Recognition,ERA-Net)。方法首先,利用自注意机制与邻域注意力机制,在捕捉点与点之间的全局依赖关系的同时,捕捉每个点与其邻域点之间的局部依赖关系,充分提取点间的语义特征。同时,利用点与其k邻近点的坐标信息,计算距离、角度以及角度差等低维几何特征,并设计基于特征距离的注意力池化模块,通过在高维空间分析特征之间的相关性,提取具有较强区分性且具有旋转特性的几何特征。最后,将提取的语义特征以及几何特征进行有效融合,通过NetVLAD模块,产生更具判别性的全局描述符。结果将提出的ERA-Net在公共数据集Oxford Robotcar上进行验证并与最先进的方法(state-of-the-art methods,SOTA)进行比较。在Oxford数据集中,ERA-Net的Average Recall@1%指标可以达到96.48%,在University Sector(U.S.)、Residential Area(R.A.)以及Business District(B.D.)数据集上的识别效果均优于其它方法。特别的,当查询场景进行旋转时,ERA-Net的识别效果优于已有方法。结论实验结果表明,ERA-Net能够充分考虑点间的上下文信息,以及特征间的相关性,提取具有较强独特性的场景特征,在面对旋转问题时能够展现出较好的鲁棒性,具有较强的泛化能力。
摘要:目的基于点云的神经渲染方法受点云质量及特征提取的影响,易导致新视角合成图像渲染质量下降,为此本文提出一种融合局部空间信息的新视角合成方法。方法针对点云质量及提取特征不足的问题,本文首先给出一种神经点云特征对齐模块,将点云与图像匹配区域的特征进行对齐,融合后构成神经点云,提升其特征的局部表达能力。其次,提出一种神经点云Transformer模块,用于融合局部神经点云的上下文信息,在点云质量不佳的情况下仍能提取可靠的局部空间信息,有效增强了点云神经渲染方法的合成质量。结果实验结果表明,在真实场景数据集中,对于只包含单一物品的数据集Tanks and Temples,本文方法在峰值信噪比(peak signal to noise ratio, PSNR)指标上与NeRF方法相比提高19.2%,相较于使用点云输入的方法Tetra-NeRF和Point-NeRF分别提升6.4%、3.8%,即使在场景更为复杂的ScanNet数据集中,与NeRF方法及Point-NeRF相比分别提升34.6%和2.1%。结论本文方法能够更好地利用点云的局部空间信息,有效改善了稀疏视角图像输入下因点云质量和提取特征导致的渲染质量下降,实验结果验证了本文方法的有效性。
摘要:目的针对目前三维人体姿态估计方法未能有效地处理时间序列冗余,难以捕获人体关节上的微小变化的问题,本文提出一种融合多关节特征的单目视觉三维人体姿态估计网络。方法在关节运动特征提取模块中,采用多分支操作提取关节在时间维度上的运动特征,并将不同特征融合形成具有高度表达力的特征表示。关节特征融合模块整合了不同关节组和中间帧的全局信息,通过矩阵内积的方式表达不同关节组在高纬度空间的相对位置及相互联系,得到中间3D姿态的初估值。关节约束模块引入中间帧的2D关节点空间位置关系作为隐式约束,与中间帧3D姿态初估值融合,减少不合理的姿态输出,提高最终3D姿态估计的准确性。结果实验结果表明,与MHFormer方法相比,本方法在Human3.6M数据集上的平均关节位置误差(mean per joint position error,MPJPE)结果为29.0mm,误差降低4.9%,在复杂动作,如SittingDown和WalkDog,误差降低了7.7%和8.2%。在MPI-INF-3DHP数据集上,MPJPE指标降低36.2%,曲线下面积(area under the curve,AUC)指标上提升12.9%,正确关节点百分比(percentage of correct keypoints,PCK)指标上提升3%。体现出,在面对复杂动作问题时,网络利用各分支提取了不同的关节时序运动特征,将不同关节组的位置信息进行融合交互,结合当前帧的关节姿态信息加以约束,得到更高的精度。在HumanEva数据集上的实验结果验证了本方法适用不同数据集,消融实验进一步验证了各个模块的有效性。结论本文提出的网络由于有效地融合了人体多关节特征,可以更好地提高单目视觉三维人体姿态估计的准确性,且具备较高的泛化性。