目的电力设备巡检影像缺陷检测对于提高电力传输的安全性和电网运行的可靠性具有重要作用。但由于相应训练数据集的构造成本高昂,传统的监督学习方法难以适应电力设备巡检影像缺陷检测。同时电力设备巡检影像中通常含有复杂多样的背景,严重干扰了模型对缺陷的检测。方法基于视觉语言模型并结合文本提示,提出了电力设备巡检影像零样本缺陷检测模型。模型中含有多个双专家模块,在由视觉语言模型获得文本特征和视觉特征后,经多个双专家模块处理并融合,得到像素级的缺陷检测结果。同时,构建了具有像素级掩码标注的电力设备巡检影像数据集对模型性能进行全面评测。结果在本文构建的电力设备巡检影像测试数据集上与SAA+(segment any anomaly+)、AnomalyGPT 、WinCLIP(window-based CLIP)、PaDiM(patch distribution modeling)和PatchCore进行比较,在像素级的缺陷分割性能表现上,AUROC(area under the receiver operating characteristic curve)平均提升18.1%,F1-max(F1 score at optimal threshold)平均提升26.1%;在图像级的缺陷分类性能表现上,AUROC平均提升20.2%,AP(average precision)平均提升10.0%。具体到数据集中的各个电力设备,模型在像素级缺陷分割性能表现上,均获得最好结果。同时进行了消融实验,证明了双专家模块对提升模型缺陷检测精度的显著效果。结论本文模型以零样本的方式,避免了构造电力设备巡检影像数据集的高昂成本。同时提出的双专家模块,使模型减少了受巡检影像复杂背景区域的干扰。
目的路面缺陷检测是道路维护和管理的重要环节,人工智能技术能够极大地提升路面缺陷检测的性能和效率,为解决当前路面缺陷检测算法难以满足在计算资源受限设备上进行实时检测的问题,本文基于YOLOv8(you only look once version 8)目标检测框架,结合部分卷积(partial convolution)与初始深度卷积(inception depthwise convolution)机制提出了一种轻量级的路面缺陷检测算法YOLOv8n-PIVI。方法该算法在骨干特征提取网络引入PartialBlock降低模型参数量,同时引入IDBlock(inception depthwise block)丰富网络的特征提取能力并进一步降低计算复杂度;在特征融合网络引入VanillaBlock减少网络参数的同时优化网络特征融合能力;引入ID-Detect(inception depthwise detect)检测头,极大降低模型的计算复杂度并优化检测头对于不同尺度特征的解析能力。结果在Pothole Dataset数据集上的实验结果显示,本文提出的算法mAP50(mean average precision at 50% intersection over union)达到了0.55,较基线算法提升了3.5个百分点,FPS(frames per second)达到了243,较基线算法提升了43,并且模型参数量和计算量仅为基线67%和72%,模型参数文件由6.3MB(mega byte)降低至4.3MB,内存占用较原模型降低了近1/3。在与目标检测领域较经典算法的对比实验中,本文所提出的算法在同参数量级模型中检测精度、计算复杂度及FPS较其他算法都有一定优势。此外,在RDD2022(road damage detector 2022)-China-MotorBike数据集和VOC2012(visual object classes 2012)数据集上的实验结果表明,本文所提算法具有良好的适应性和鲁棒性,能够适应不同的目标检测任务。结论综合实验结果表明,本文提出的算法能够以轻量级的计算资源需求,实现更高的目标检测性能,模型参数文件大小低至4.3MB,并且具有良好的适应性和鲁棒性,有助于降低路面缺陷检测算法的使用限制,拓宽路面缺陷检测系统的适用场景。
目的地点识别是机器人利用实时扫描到的点云数据进行定位和自主导航的核心。现有的针对大规模点云的地点识别方法往往忽略了真实驾驶中存在的旋转问题。当查询场景发生旋转时,这些方法识别性能会显著下降,这严重阻碍了它们在复杂现实场景中的应用。因此,本文提出一种有效的面向三维点云的具有旋转感知地点识别网络(Efficient Rotation-Aware Network for Point Cloud based Place Recognition,ERA-Net)。方法首先,利用自注意机制与邻域注意力机制,在捕捉点与点之间的全局依赖关系的同时,捕捉每个点与其邻域点之间的局部依赖关系,充分提取点间的语义特征。同时,利用点与其k邻近点的坐标信息,计算距离、角度以及角度差等低维几何特征,并设计基于特征距离的注意力池化模块,通过在高维空间分析特征之间的相关性,提取具有较强区分性且具有旋转特性的几何特征。最后,将提取的语义特征以及几何特征进行有效融合,通过NetVLAD模块,产生更具判别性的全局描述符。结果将提出的ERA-Net在公共数据集Oxford Robotcar上进行验证并与最先进的方法(state-of-the-art methods,SOTA)进行比较。在Oxford数据集中,ERA-Net的Average Recall@1%指标可以达到96.48%,在University Sector(U.S.)、Residential Area(R.A.)以及Business District(B.D.)数据集上的识别效果均优于其它方法。特别的,当查询场景进行旋转时,ERA-Net的识别效果优于已有方法。结论实验结果表明,ERA-Net能够充分考虑点间的上下文信息,以及特征间的相关性,提取具有较强独特性的场景特征,在面对旋转问题时能够展现出较好的鲁棒性,具有较强的泛化能力。