摘要:目的电力设备巡检影像缺陷检测对于提高电力传输的安全性和电网运行的可靠性具有重要作用。但由于相应训练数据集的构造成本高昂,传统的监督学习方法难以适应电力设备巡检影像缺陷检测。同时电力设备巡检影像中通常含有复杂多样的背景,严重干扰了模型对缺陷的检测。方法基于视觉语言模型并结合文本提示,提出了电力设备巡检影像零样本缺陷检测模型。模型中含有多个双专家模块,在由视觉语言模型获得文本特征和视觉特征后,经多个双专家模块处理并融合,得到像素级的缺陷检测结果。同时,构建了具有像素级掩码标注的电力设备巡检影像数据集对模型性能进行全面评测。结果在本文构建的电力设备巡检影像测试数据集上与SAA+(segment any anomaly+)、AnomalyGPT 、WinCLIP(window-based CLIP)、PaDiM(patch distribution modeling)和PatchCore进行比较,在像素级的缺陷分割性能表现上,AUROC(area under the receiver operating characteristic curve)平均提升18.1%,F1-max(F1 score at optimal threshold)平均提升26.1%;在图像级的缺陷分类性能表现上,AUROC平均提升20.2%,AP(average precision)平均提升10.0%。具体到数据集中的各个电力设备,模型在像素级缺陷分割性能表现上,均获得最好结果。同时进行了消融实验,证明了双专家模块对提升模型缺陷检测精度的显著效果。结论本文模型以零样本的方式,避免了构造电力设备巡检影像数据集的高昂成本。同时提出的双专家模块,使模型减少了受巡检影像复杂背景区域的干扰。
摘要:目的针对远距离红外飞机目标检测中存在的由于成像面积小、辐射强度较弱造成无法充分提取目标特征进而影响检测性能的问题,提出一种基于全局—局部上下文自适应加权融合(adaptive weighted fusion of global-local context,AWFGLC)机制的红外飞机目标检测算法。方法基于全局—局部上下文自适应加权融合机制,沿着通道维度随机进行划分与重组,将输入特征图切分为两个特征图。一个特征图使用自注意力进行全局上下文建模,建立目标特征与背景特征之间的相关性,突出目标较显著的特征,使得检测算法更好地感知目标的全局特征。对另一特征图进行窗口划分并在每个窗口内进行最大池化和平均池化以突出目标局部特征,随后使用自注意力对池化特征图进行局部上下文建模,建立目标与其周围邻域的相关性,进一步增强目标特征较弱的部分,使得检测算法更好地感知目标的局部特征。根据目标特点,利用可学习参数的自适应加权融合策略将全局上下文和局部上下文特征图进行聚合,得到包含较完整目标信息的特征图,增强检测算法对目标与背景的判别能力。结果将全局—局部上下文自适应加权融合机制引入YOLOv7(you only look once version 7)并对红外飞机目标进行检测,实验结果表明,提出算法在自制和公开红外飞机数据集的mAP50( mean average precision 50)分别达到97.8%、88.7%,mAP50:95分别达到65.7%、61.2%。结论本文所提出的红外飞机检测算法,优于经典的目标检测算法,能够有效实现红外飞机目标检测。
摘要:目的针对合成孔径雷达(synthetic aperture radar,SAR)图像舰船检测中因背景复杂、目标尺寸各异等因素导致的漏检、误检结果,提出一种基于YOLOv8(you only look once v8)的改进算法。方法首先,轻量化处理YOLOv8的原有网络结构,大幅降低网络的冗余度,使轻量化的网络更适合SAR图像舰船检测任务。其次,在主干网络中融入可变形卷积,增强模型对目标的感知能力,能更好地适应目标形变和复杂背景;同时,在颈部网络融入卷积注意力模块,减弱背景信息的干扰,使网络更专注舰船目标的特征。最后,采用EIoU(efficient intersection over union)损失函数,最小化预测框与真实框间的差值(包括宽度和高度),实现更快的收敛速度。结果分别在SSDD(SAR ship detection dataset)和HRSID(high-resolution SAR images dataset)上进行测试,结果表明,改进算法的检测性能优于当前几种流行的目标检测算法。其中,与YOLOv8相比,在两个公开数据集上,改进算法的精度评估指标mAP(mean average precision)@0.5分别提升0.68%和1.29%,mAP@0.75分别提升3.32%和3.10%,其处理速度FPS(frames per second)分别提升22帧/s和18帧/s。结论本文在轻量化处理YOLOv8基础上融合可变形卷积与注意力机制构建的改进算法,能实现SAR舰船检测精度和速度的双重提升。
摘要:目的从单幅影像中估计景深已成为计算机视觉研究热点之一,现有方法常通过提高网络的复杂度回归深度,增加了数据的训练成本及时间复杂度,为此提出一种面向单目深度估计的多层次感知条件随机场模型。方法采用自适应混合金字塔特征融合策略,捕获图像中不同位置间的短距离和长距离依赖关系,从而有效聚合全局和局部上下文信息,实现信息的高效传递。引入条件随机场解码机制,以此精细捕捉像素间的空间依赖关系。结合动态缩放注意力机制增强对不同图像区域间依赖关系的感知能力,引入偏置学习单元模块避免网络陷入极端值问题,保证模型的稳定性。针对不同特征模态间的交互情况,通过层次感知适配器扩展特征映射维度增强空间和通道交互性能,提高模型的特征学习能力。结果在NYU Depth v2(New York University depth dataset version 2)数据集上进行消融实验,结果表明,本文网络可以显著提高性能指标,相较于对比的先进方法,绝对相对误差(absolute relative error, Abs Rel)减小至0.1以内,降低7.4%,均方根误差(root mean square error, RMSE)降低5.4%。为验证模型在真实道路环境中的实用性,在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)数据集上进行对比实验,上述指标均优于对比的主流方法,其中RMSE降低3.1%,阈值(, 准确度接近100%,此外,在MatterPort3D数据集上验证了模型的泛化性。从可视化实验结果看,在复杂环境下本文方法可以更好地估计困难区域的深度。结论本文采用多层次特征提取器及混合金字塔特征融合策略,优化了信息在编码器和解码器间的传递过程,通过全连接解码获取像素级别的输出,能够有效提高单目深度估计精度。
摘要:目的针对视网膜血管图像分割中血管特征尺度多变、毛细血管细节丰富以及视杯视盘、病变等特殊区域干扰导致的表征不精确、分割误差大以及结果不准确等问题,提出一种视网膜血管图像分割的尺度特征表示学习网络,包括尺度特征表示、纹理特征增强和双重对比学习3个模块。方法首先,输入视网膜图像集中的图像,通过引入空间自注意力构建尺度特征表示模块,对视网膜血管进行分层尺度表征;然后,采用上下文信息引导的纹理滤波器对血管尺度特征进行纹理特征增强;最后,通过采样血管尺度特征和纹理增强特征,并定义联合损失进行双重对比学习,优化两种特征空间中视杯视盘、病变等特殊区域的血管。结果为了验证方法的有效性,在3个具有挑战性的数据集上进行对比实验,结果表明,构建的视网膜血管图像分割网络有助于准确表示血管尺度特征和纹理增强特征,能够较好地获得完整的视网膜毛细血管等特殊区域的血管分割结果。本文方法在DRIVE(digital retinal images for vessel extraction)数据集中较对比的大多数方法,Acc(accuracy)值平均提高了0.67%,Sp(specificity)值平均提高了0.48%;在STARE(structured analysis of the retina)数据集中较对比的大多数方法,Se(sensitivity)值平均提高了6.01%,Sp值平均提高了6.86%;在CHASE_DB1(child heart and health study in England)数据集中较对比的大多数方法,Se值平均提高了1.88%,F1(F1 score)值平均提高了1.98%。结论本文提出的视网膜血管图像分割网络,能精准分割多尺度血管、毛细血管和特殊区域的血管,有效辅助视网膜血管疾病诊断。