最新刊期

    2025 30 3

      综述

    • 基于深度学习的监控视频异常检测方法综述 AI导读

      监控视频异常检测研究进展综述,为社会治理提供新思路。
      汪洋, 周脚根, 严俊, 关佶红
      2025, 30(3): 615-640. DOI: 10.11834/jig.240329
      基于深度学习的监控视频异常检测方法综述
      摘要:利用监控视频监测异常在社会治理中具有至关重要的地位,因此视频异常检测一直是计算机视觉领域备受关注且具有挑战性的议题。鉴于此,以深度学习的视角,对当前关键的视频异常检测方法进行了分类和综述。首先,全面介绍了视频异常的定义,包括异常的划定和类型分类;随后,分析了目前全监督、弱监督、无监督等方面的深度学习方法在视频异常检测领域的进展,探讨了各自的优缺点,特别针对结合大模型的最新研究进展进行了探讨;接着,详细介绍了常见和最新的数据集,并对它们的特点进行了比较分析和截图展示;最后,介绍了多种异常判定和性能评估标准,对各算法的性能表现进行了对比分析。根据这些信息,本文展望了未来数据集、评估标准以及方法研究的可能发展方向,特别强调了大模型在视频异常检测中的新机遇。综上,本文对于深化读者对视频异常检测领域的理解,以及指导未来的研究方向具有积极意义。  
      关键词:视频异常检测;深度学习;数据集;大模型;监督学习;弱监督学习;无监督学习;多模态   
      363
      |
      175
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 70933323 false
      更新时间:2025-04-11
    • 面向目标检测的视点规划方法综述 AI导读

      目标检测视点规划技术,为计算机视觉领域提供新解决方案,推动智能化生活发展。
      王健宇, 朱枫, 郝颖明, 王群, 赵鹏飞, 孙海波
      2025, 30(3): 641-659. DOI: 10.11834/jig.240319
      面向目标检测的视点规划方法综述
      摘要:目标检测是计算机视觉领域的基础研究方向之一。由于图像采集时物体摆放密集、光照条件差等因素导致图像失去细节,当使用此类图像作为输入时,常规的目标检测算法对目标物的检测结果无法满足任务需求。为了解决这类问题,面向目标检测的视点规划这一智能感知方法应运而生,其可自主分析当前条件下影响检测任务的因素,调整相机的位姿参数规避影响,实现目标物准确检测。面向目标检测的视点规划方法不仅可以辅助计算机视觉的其他领域,也会为未来的智能化生活提供便利。为了反映其研究现状和最新进展,本文梳理了2007年以来的文献,对国内外的研究方法做出概括性总结。首先,以算法应用的场景维度和调整参数作为分类依据,将面向目标检测的视点规划方法分为二维像素调整的规划方法、三维空间移动的规划方法以及两者结合的规划方法3类,本文重点对前两类方法进行分析与总结。其次,解析每类方法的基本思想,并指出各类方法需解决的关键问题,然后对解决问题的主要研究方法进行归纳和分析,并总结各自的优点和局限性。除此之外,本文也对各类场景下可使用的数据集和评价指标进行简要介绍。最后,在目前方法的分析基础上,探讨面向目标检测的视点规划领域所面临的挑战,并对未来研究方法进行展望。  
      关键词:目标检测;主动视觉;参数调整;视点规划;智能感知   
      269
      |
      193
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 68493870 false
      更新时间:2025-04-11

      目标检测与工业应用

    • 融合知识蒸馏与记忆机制的无监督工业缺陷检测 AI导读

      在智能制造领域,专家提出了融合知识蒸馏与记忆机制的无监督工业缺陷检测模型,有效提升了检测准确性与效率。
      刘兵, 史伟峰, 刘明明, 周勇, 刘鹏
      2025, 30(3): 660-671. DOI: 10.11834/jig.240202
      融合知识蒸馏与记忆机制的无监督工业缺陷检测
      摘要:目的基于深度学习的工业缺陷检测方法可以降低传统人工质检的成本, 提升检测的准确性与效率,因而在智能制造中扮演重要角色。针对无监督工业缺陷检测中存在的过检测和逻辑缺陷检测失效等问题,提出一种融合知识蒸馏与记忆机制的无监督工业缺陷检测模型。方法使用显著性检测网络和柏林噪声合成缺陷图像,提升合成图像与真实缺陷图像的分布一致性,缓解传统模型的过检测问题;同时,对传统无监督工业缺陷检测框架进行改进,引入平均记忆模块提取正常样本的原型特征,通过记忆引导提高模型对逻辑缺陷的检测性能。结果在工业缺陷检测基准数据集MVTec AD(MVTec anomaly detection dataset)上的实验结果表明,针对晶体管逻辑缺陷检测难题,在像素级接受者操作特征曲线下面积(area under the receiver operating characteristic curve, AUROC)指标上本文方法相比于基线模型提升了9.1%;针对各类缺陷检测场景,在更具挑战性的平均准确率(average precision, AP)指标上提升了2.5%。针对更具挑战性的Breakfast box数据集中的逻辑缺陷问题,本文方法在图像级AUROC指标上相较于基线模型提升了11.5%。同时,在像素级AUROC指标上,本文方法相较于基线模型提升了4.0%。结论本文不受传统缺陷合成方法的限制,能够有效缓解现有缺陷合成方法引起的过检测问题;引入平均记忆模块不仅可以减小内存开销,而且无需设计复杂的检索算法,节省了检索内存库所耗费的时间;将所提出的缺陷合成方法与记忆机制进行有机结合,能够准确检测出不同种类的工业缺陷。  
      关键词:缺陷检测;知识蒸馏;记忆机制;缺陷合成;显著性检测   
      183
      |
      87
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86934407 false
      更新时间:2025-04-11
    • 基于双专家的巡检影像多模态零样本缺陷检测 AI导读

      在电力设备巡检影像缺陷检测领域,专家提出了基于视觉语言模型的零样本缺陷检测模型,有效提升了缺陷检测精度,为电网安全运行提供新方案。
      吴华, 贾栋豪, 张婷婷, 白晓静, 孙笠, 蒲梦杨
      2025, 30(3): 672-682. DOI: 10.11834/jig.240246
      基于双专家的巡检影像多模态零样本缺陷检测
      摘要:目的电力设备巡检影像缺陷检测对于提高电力传输的安全性和电网运行的可靠性具有重要作用。但由于相应训练数据集的构造成本高昂,传统的监督学习方法难以适应电力设备巡检影像缺陷检测。同时电力设备巡检影像中通常含有复杂多样的背景,严重干扰了模型对缺陷的检测。方法基于视觉语言模型并结合文本提示,提出了电力设备巡检影像零样本缺陷检测模型。模型中含有多个双专家模块,在由视觉语言模型获得文本特征和视觉特征后,经多个双专家模块处理并融合,得到像素级的缺陷检测结果。同时,构建了具有像素级掩码标注的电力设备巡检影像数据集对模型性能进行全面评测。结果在本文构建的电力设备巡检影像测试数据集上与SAA+(segment any anomaly+)、AnomalyGPT 、WinCLIP(window-based CLIP)、PaDiM(patch distribution modeling)和PatchCore进行比较,在像素级的缺陷分割性能表现上,AUROC(area under the receiver operating characteristic curve)平均提升18.1%,F1-max(F1 score at optimal threshold)平均提升26.1%;在图像级的缺陷分类性能表现上,AUROC平均提升20.2%,AP(average precision)平均提升10.0%。具体到数据集中的各个电力设备,模型在像素级缺陷分割性能表现上,均获得最好结果。同时进行了消融实验,证明了双专家模块对提升模型缺陷检测精度的显著效果。结论本文模型以零样本的方式,避免了构造电力设备巡检影像数据集的高昂成本。同时提出的双专家模块,使模型减少了受巡检影像复杂背景区域的干扰。  
      关键词:零样本缺陷检测;双专家;视觉语言模型;多模态;电力设备巡检影像   
      105
      |
      54
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86934145 false
      更新时间:2025-04-11
    • 局部无参注意力和联合损失的遥感目标检测 AI导读

      在遥感目标检测领域,专家基于YOLOv5s网络,提出了一种局部无参注意力和联合损失的遥感目标检测方法,有效提高了复杂场景下小目标的检测性能。
      夏波, 薛卫涛, 周新尧, 黄鸿
      2025, 30(3): 683-695. DOI: 10.11834/jig.240316
      局部无参注意力和联合损失的遥感目标检测
      摘要:目的遥感目标检测技术在遥感测绘、智慧城市、乡村振兴和国防军事等领域具有广泛应用,但遥感影像存在背景信息复杂、待检目标小且多等特点,导致目标特征随着网络加深淹没在背景信息中,不利于后续检测任务。针对此问题,基于YOLOv5s(you only look once)网络,提出一种局部无参注意力和联合损失的遥感目标检测方法。方法首先提出一种局部无参注意力机制,能够根据当前特征提高局部区域内的目标关注度,而不引入训练参数,以此构建无参注意力残差块,并将其嵌入到骨干网络的不同阶段,实现多尺度目标特征增强和背景信息抑制。在此基础上,利用最优传输距离度量边界框的相似性,构造W-CIoU(Wassertein-complete intersection of union)联合度量方法和相应损失函数,以缓解锚框与真实框差异过大导致的标签误分配问题,降低小目标漏检率。结果在RSOD(remote sensing object detection)和RSSOD(remote sensing super-resolution object detection)数据集上的实验结果表明,该方法在保证模型参数量和复杂度基本不变的前提下,其平均精度均值(mean average precision, mAP)分别达到98.2%及87.4%,相较两种主要对比方法DAB-DETR(dynamic anchor boxes for detection Transformer)和YOLOv8s,在RSOD数据集上分别提升0.8%和0.3%,在RSSOD数据集上分别提升2.9%和2.6%。结论本文方法能够抑制背景信息并增强目标特征,提高检测性能,相较对比方法能更好地满足复杂场景下小目标检测需要。  
      关键词:遥感影像;目标检测;局部无参注意力(LPFA);最优传输距离;联合损失函数   
      219
      |
      157
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 67575198 false
      更新时间:2025-04-11
    • 基于监督注意力的遥感图像定向目标检测 AI导读

      在遥感图像目标检测领域,研究者基于Faster R-CNN,结合无锚检测和监督掩码注意力技术,提出了一种新的两阶段无锚检测模型。该模型通过注意力机制和掩码监督方法引导检测模型关注目标区域,提高目标特征质量,并采用动态调整的软标签策略,实现标签合理分配,提高检测精度。在DOTA和HRSC2016数据集上,平均精确率均值分别达到76.36%和90.51%,超过大多定向检测模型,表明了该方法的先进性和有效性。
      余凌霄, 郝洁, 左量
      2025, 30(3): 696-709. DOI: 10.11834/jig.240247
      基于监督注意力的遥感图像定向目标检测
      摘要:目的任意方向的多尺度目标和复杂的背景信息,使得在遥感图像上的目标检测相比一般目标检测任务具有更大的挑战。尽管一些现有的检测模型取得了令人满意的成果,但它们主要基于锚框实现,其检测性能依赖于预定义锚框的设计。本文在Faster R-CNN(faster region-based convolutional neural network)的基础上,通过结合无锚检测思想与监督掩码注意力技术,提出了一种新的两阶段无锚检测模型。方法首先,对于骨干网络提取的特征金字塔构建一个监督掩码注意力模块,通过注意力机制和掩码监督方法引导检测模型关注目标区域,减少背景噪声的干扰,从而提高目标特征的质量。其次,结合FCOS(fully convolutional one-stage object detection)的回归思想以及中心点偏移技术设计了一个基于关键点预测的无锚定向区域提议网络,并且在训练阶段采用动态调整的软标签策略,实现标签的合理分配,提高模型的检测精度。结果在两个公开的遥感数据集DOTA(dataset for object detection in aerial images)和HRSC(high-resolution ship collections)2016上进行了大量实验,平均精确率均值(mean average precision,mAP)分别达到76.36%和90.51%,超过大多的定向检测模型,表明了本文方法的先进性和有效性。结论本文提出的检测模型通过将区域提取网络的无锚框设计、监督方法以及注意力机制进行结合,能够有效适应复杂遥感图像中的定向目标检测场景。  
      关键词:深度学习;遥感图像;定向目标检测;无锚框;注意力机制;多尺度特征融合   
      131
      |
      53
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86934556 false
      更新时间:2025-04-11
    • 在红外飞机目标检测领域,专家提出了基于全局—局部上下文自适应加权融合机制的检测算法,有效提升了目标与背景的判别能力。
      徐红鹏, 刘刚, 习江涛, 童军
      2025, 30(3): 710-723. DOI: 10.11834/jig.240271
      基于全局—局部上下文自适应加权融合的红外飞机检测算法
      摘要:目的针对远距离红外飞机目标检测中存在的由于成像面积小、辐射强度较弱造成无法充分提取目标特征进而影响检测性能的问题,提出一种基于全局—局部上下文自适应加权融合(adaptive weighted fusion of global-local context,AWFGLC)机制的红外飞机目标检测算法。方法基于全局—局部上下文自适应加权融合机制,沿着通道维度随机进行划分与重组,将输入特征图切分为两个特征图。一个特征图使用自注意力进行全局上下文建模,建立目标特征与背景特征之间的相关性,突出目标较显著的特征,使得检测算法更好地感知目标的全局特征。对另一特征图进行窗口划分并在每个窗口内进行最大池化和平均池化以突出目标局部特征,随后使用自注意力对池化特征图进行局部上下文建模,建立目标与其周围邻域的相关性,进一步增强目标特征较弱的部分,使得检测算法更好地感知目标的局部特征。根据目标特点,利用可学习参数的自适应加权融合策略将全局上下文和局部上下文特征图进行聚合,得到包含较完整目标信息的特征图,增强检测算法对目标与背景的判别能力。结果将全局—局部上下文自适应加权融合机制引入YOLOv7(you only look once version 7)并对红外飞机目标进行检测,实验结果表明,提出算法在自制和公开红外飞机数据集的mAP50( mean average precision 50)分别达到97.8%、88.7%,mAP50:95分别达到65.7%、61.2%。结论本文所提出的红外飞机检测算法,优于经典的目标检测算法,能够有效实现红外飞机目标检测。  
      关键词:红外飞机;目标检测;全局上下文;局部上下文;自适应加权   
      112
      |
      168
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 68493923 false
      更新时间:2025-04-11
    • 可变形卷积与注意力的SAR舰船检测轻量化模型 AI导读

      在合成孔径雷达图像舰船检测领域,研究者提出了基于YOLOv8的改进算法,有效提升了检测精度和速度。
      余光浩, 陈润霖, 徐金燕, 徐前祥, 王大寒, 陈峰
      2025, 30(3): 724-736. DOI: 10.11834/jig.240210
      可变形卷积与注意力的SAR舰船检测轻量化模型
      摘要:目的针对合成孔径雷达(synthetic aperture radar,SAR)图像舰船检测中因背景复杂、目标尺寸各异等因素导致的漏检、误检结果,提出一种基于YOLOv8(you only look once v8)的改进算法。方法首先,轻量化处理YOLOv8的原有网络结构,大幅降低网络的冗余度,使轻量化的网络更适合SAR图像舰船检测任务。其次,在主干网络中融入可变形卷积,增强模型对目标的感知能力,能更好地适应目标形变和复杂背景;同时,在颈部网络融入卷积注意力模块,减弱背景信息的干扰,使网络更专注舰船目标的特征。最后,采用EIoU(efficient intersection over union)损失函数,最小化预测框与真实框间的差值(包括宽度和高度),实现更快的收敛速度。结果分别在SSDD(SAR ship detection dataset)和HRSID(high-resolution SAR images dataset)上进行测试,结果表明,改进算法的检测性能优于当前几种流行的目标检测算法。其中,与YOLOv8相比,在两个公开数据集上,改进算法的精度评估指标mAP(mean average precision)@0.5分别提升0.68%和1.29%,mAP@0.75分别提升3.32%和3.10%,其处理速度FPS(frames per second)分别提升22帧/s和18帧/s。结论本文在轻量化处理YOLOv8基础上融合可变形卷积与注意力机制构建的改进算法,能实现SAR舰船检测精度和速度的双重提升。  
      关键词:合成孔径雷达 (SAR);目标检测;YOLOv8;卷积注意力模块(CBAM);可变形卷积;EIoU   
      46
      |
      35
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86934683 false
      更新时间:2025-04-11

      图像处理和编码

    • 自适应卷积约束与全局上下文推理的墓室壁画修复 AI导读

      在数字文化遗产保护领域,专家提出了一种自适应卷积约束与全局上下文推理的墓室壁画修复方法,有效修复多种复杂病害,为手工绘制专家的物理修复提供参考。
      吴萌, 郭歌, 孙增国, 路智勇, 张倩文
      2025, 30(3): 737-754. DOI: 10.11834/jig.240277
      自适应卷积约束与全局上下文推理的墓室壁画修复
      摘要:目的墓室壁画作为地下文物,由于环境湿度、地仗沉降等因素,局部区域出现了脱落、裂缝、霉变等多种病害,导致画面部分缺失。但现有深度学习的修复方法通常在单一维度或固定区域进行信息重建,无法充分捕获稀疏的壁画特征和修复多样化的复杂病害,修复时会出现内容缺失、结构错乱等问题。对此,提出一种自适应卷积约束与全局上下文推理的墓室壁画修复。方法基于端到端的编码器—解码器架构,首先设计多尺度增强卷积模块,从频域和空域联合分析图像特性来充分捕获全局结构和局部纹理;同时在修复路径中加入融合差分卷积的增强激活单元来引入边缘先验信息,提高模型的绘制精度。其次,考虑到纹理和结构在绘制过程中的模式差异,在编码器—解码器间设计基于注意力交互引导的多尺度特征聚合模块,来加强全局稀疏信息的表征能力和相关性,并自适应选择增强有效特征。此外,为了获得真实准确的结果,在特征传递过程中利用自动掩码更新迭代来预测复杂缺失信息,引导解码器精确绘制多样化的损伤区域。结果本文采用客观评价指标峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity index,SSIM)和学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)在章怀太子墓“马球图”数据集上进行3类模拟病害和真实病害修复实验,并与6种主流方法进行比较。实验结果表明,本文方法修复的壁画图像在主观视觉和客观评价上均有明显提升。相较于指标排名第2的模型,对于随机缺失区域的壁画修复,峰值信噪比和结构相似性的均值分别达到31.760 2dB和0.957 7,各指标的样本均值分别提升了2.365 3 dB、0.012 8和12.75%。结论本文提出的图像修复模型可以有效修复多种复杂病害,可为手工绘制专家的物理修复提供参考,进一步促进了数字文化遗产的可持续研究与保护。  
      关键词:壁画修复;多尺度增强卷积模块;多尺度特征聚合模块;增强激活单元;差分卷积;病害修复   
      128
      |
      415
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 67576748 false
      更新时间:2025-04-11
    • 提示学习与门控前馈网络的多尺度图像去模糊 AI导读

      在图像去模糊领域,研究人员提出了基于提示学习的多尺度去模糊新方法,有效解决了伪影、细节模糊和噪声残留问题,为图像去模糊研究提供了新方向。
      谢斌, 黎彦先, 邵祥, 戴邦强
      2025, 30(3): 755-768. DOI: 10.11834/jig.240315
      提示学习与门控前馈网络的多尺度图像去模糊
      摘要:目的针对传统基于深度学习的去模糊方法存在的伪影明显、细节模糊和噪声残留等问题,提出一种基于提示学习的多尺度图像去模糊新方法。方法首先,在详细分析传统去模糊方法的基础上,引入基于提示学习的特定退化信息编码模块,利用退化信息中包含的上下文信息来动态地引导深度网络以更有效地完成去模糊任务。其次,设计了新的门控前馈网络,通过控制各个层级的信息流动构建更为丰富和更具层次结构的特征表示,从而进一步提高对复杂数据的理解和处理能力,以更好地保持结果图像的几何结构。另外,新方法引入了经典的总变差正则来抑制去模糊过程中的噪声残留,以提高结果图像的视觉表现。结果基于GoPro和REDS(the realistic and diverse scenes)数据集的大量实验结果表明,与其他先进的基于深度学习的去模糊方法相比,本文方法在图像去模糊方面取得了更好的效果。在峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity, SSIM)指标上,本文方法在GoPro数据集上分别达到33.04 dB和0.962的最优结果。在REDS数据集上分别达到28.70 dB和0.859的结果。并且,相比SAM-deblur(segment anything model-deblur)方法,PSNR提升了1.77 dB。结论相较于其他的去模糊方法,本文方法不仅能够较好地保持结果图像的细节信息,而且还能够有效地克服伪影明显和噪声残留的问题,所得结果图像在PSNR和SSIM等客观评价指标方面均有更好的表现。  
      关键词:图像去模糊;提示学习;多尺度;门控前馈网络(GFFN);深度卷积   
      115
      |
      119
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 67575247 false
      更新时间:2025-04-11
    • 隐含异位联合编码的密文图像可逆信息隐藏 AI导读

      在信息隐藏领域,专家提出了一种位平面隐含异位联合编码的密文图像可逆信息隐藏方案,有效提升了嵌入率。
      陈振宇, 殷赵霞, 占鸿渐, 吕淑静, 胡孟晗
      2025, 30(3): 769-783. DOI: 10.11834/jig.240287
      隐含异位联合编码的密文图像可逆信息隐藏
      摘要:目的密文图像可逆信息隐藏技术旨在将信息嵌入至加密图像,以确保信息和原始图像能够准确提取和无损恢复。针对密文图像可逆信息隐藏嵌入率不高的问题,通过增加编码的信息运载效率与利用相邻像素相关性,提出了一种位平面隐含异位联合编码的密文图像可逆信息隐藏方案。方法首先,图像所有者将原始图像分成大小相等的块,并计算出原始图像像素的预测误差。然后,对预测误差的8个位平面进行重排。在位平面压缩阶段,运用隐含异位的联合编码方法进行压缩。压缩后,各类辅助信息被放置到多个高位平面并加密,在多个低位平面上预留空间,结束后进行图像混洗。信息隐藏者将信息嵌入到混洗图像的预留空间中。最后,图像接收者使用密钥提取嵌入的信息或无损恢复原始图像。结果实验结果表明,所提算法在两个常用数据集BOSSBase(break our steganographic system)和BOWS2(break our watermarking system 2nd)上的平均嵌入率分别为3.818 3 bpp和3.694 3 bpp,在同类算法中表现优异。结论所提算法更好地利用原始图像相邻像素间的相关性解决了实际应用中连续比特流串长度较短、数量较多带来的压缩率损失问题,从而提升了嵌入率。  
      关键词:密文图像可逆信息隐藏(RDHEI);隐含异位压缩;联合编码;预测误差;位平面;嵌入率(ER)   
      104
      |
      111
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 67575649 false
      更新时间:2025-04-11
    • 融合通道注意力的跨尺度Transformer图像超分辨率重建 AI导读

      在图像超分辨率领域,研究者提出了融合通道注意力的跨尺度Transformer模型,有效提升了图像重建性能,并在多个数据集上验证了模型的有效性。
      李焱, 董仕豪, 张家伟, 赵茹, 郑钰辉
      2025, 30(3): 784-797. DOI: 10.11834/jig.240279
      融合通道注意力的跨尺度Transformer图像超分辨率重建
      摘要:目的针对在超分辨率任务中,Transformer模型存在特征提取模式单一、重建图像高频细节丢失和结构失真的问题,提出了一种融合通道注意力的跨尺度Transformer图像超分辨率重建模型。方法模型由4个模块组成:浅层特征提取、跨尺度深层特征提取、多级特征融合以及高质量重建模块。浅层特征提取利用卷积处理早期图像,获得更稳定的输出;跨尺度深层特征提取利用跨尺度Transformer和强化通道注意力机制,扩大感受野并通过加权筛选提取不同尺度特征以便融合;多级特征融合模块利用强化通道注意力机制,实现对不同尺度特征通道权重的动态调整,促进模型对丰富上下文信息的学习,增强模型在图像超分辨率重建任务中的能力。结果在Set5、Set14、BSD100(Berkeley segmentation dataset 100)、Urban100(urban scene 100)和Manga109标准数据集上的模型评估结果表明,相较于SwinIR超分辨率模型,所提模型在峰值信噪比上提高了0.06~0.25 dB,且重建图像视觉效果更好。结论提出的融合通道注意力的跨尺度Transformer图像超分辨率重建模型,通过融合卷积特征与Transformer特征,并利用强化通道注意力机制减少图像中噪声和冗余信息,降低模型产生图像模糊失真的可能性,图像超分辨率性能有效提升,在多个公共实验数据集的测试结果验证了所提模型的有效性。  
      关键词:图像超分辨率;跨尺度Transformer;通道注意力机制;特征融合;深度学习   
      224
      |
      233
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 68494016 false
      更新时间:2025-04-11
    • 结合浓度划分与图像融合的多分支非均质图像去雾 AI导读

      在图像去雾领域,研究者提出了一种多分支非均质图像去雾算法,有效增强非均质雾霾图像,展现出较高的鲁棒性和性能指标。
      金鑫乐, 刘春晓, 叶爽爽, 王成骅, 周子翔
      2025, 30(3): 798-810. DOI: 10.11834/jig.240253
      结合浓度划分与图像融合的多分支非均质图像去雾
      摘要:目的目前的去雾算法已能够较好地处理均质的薄雾图像,但针对雾霾浓度不同的非均质雾霾图像往往具有较低的去雾性能。为此,提出了结合浓度划分与图像融合的多分支非均质图像去雾算法。方法本文将单幅非均质雾霾图像视为由多个具有均质薄雾或者均质浓雾的局部区域组成,通过分别解决单幅非均质雾图中的不同均质雾霾区域来进行整幅非均质图像去雾。首先在不同均质雾霾浓度的去雾数据集上训练了多个图像增强网络,以得到针对不同均质雾霾浓度的图像增强模型,它们对于相应雾霾浓度的图像区域具有较好的增强性能。由于单个图像增强模型只能较好地增强一幅非均质雾霾图像中具有对应雾霾浓度的图像区域,但对其他不同雾霾浓度的图像区域可能存在去雾力度不足或者过度增强的现象,本文又设计了一个图像融合网络,将多个初始图像增强结果中的优势区域进行融合,得到最终的图像去雾结果。结果大量的实验结果显示,在合成雾霾数据集FiveK-Haze上,本文算法与排名第2的SCAN(self-paced semi-curricular attention network)方法相比在峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity index,SSIM)有参考指标上分别提高了5.286 6 dB和0.113 8。在真实雾霾数据集Real-World上,本文算法与排名第2的DEAN(detail-enhanced convolution and content-guided attention network)方法相比,在FADE(fog aware density evaluator)和HazDes无参考指标上分别降低了0.079 3和0.051 2。在室内合成测试数据集SOTS-indoor(synthetic objective testing set)上,本文算法的PSNR和SSIM指标比排名第2的DeFormer方法分别提高了2.518 2 dB和0.012 3。在室外合成测试数据集SOTS-outdoor上,本文算法在PSNR指标上比排名第2的SGID-PFF(self-guided image dehazing using progressive feature fusion)方法提高了2.832 dB,在SSIM指标上比排名第2的DeFormer方法提高了0.023 8。结论与已有的单幅图像去雾方法相比,本文算法能够有效增强非均质雾霾图像,具有更高的鲁棒性,展现出较好的性能指标。  
      关键词:图像去雾;非均质雾霾图像;雾霾浓度划分;图像融合;多分支神经网络   
      27
      |
      23
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86934143 false
      更新时间:2025-04-11

      图像分析和识别

    • 融合多视图一致和互补信息的深度3D模型分类 AI导读

      在3D模型分类领域,专家提出了一种深度学习网络,有效融合多视图一致信息和互补信息,显著提升了分类准确率。
      吴晗, 胡良臣, 杨影, 接标, 罗永龙
      2025, 30(3): 811-823. DOI: 10.11834/jig.240060
      融合多视图一致和互补信息的深度3D模型分类
      摘要:目的基于深度学习的方法在3D模型分类任务中取得了先进的性能,此类方法需要提取三维模型不同数据表示的特征,例如使用深度学习模型提取多视图特征并将其组合成单一而紧凑的形状描述符。然而,这些方法只考虑了多视图之间的一致信息,而忽视了视图与视图之间存在的差异信息。为了解决这一问题,提出了新的特征网络学习3D模型多视图数据表示的一致信息和互补信息,并将其有效融合,以充分利用多视图数据的特征,提高3D模型分类准确率。方法该方法首先在残差网络的残差结构中引入空洞卷积,扩大卷积操作的感受野。随后,对网络结构调整以进行多视图特征提取。然后,通过设计的视图分类网络划分一致信息和互补信息,充分利用每个视图。为了处理这两类不同的信息,引入了一种结合注意力机制的学习融合策略,将两类特征视图融合,从而得到形状级描述符,实现可靠的3D模型分类。结果该模型的有效性在ModelNet数据集的两个子集上得到验证。在基于ModelNet40数据集的所有对比方法中具有最好的性能表现。为了对比不同的特征提取网络,设置单分类任务实现性能验证,本文方法在分类准确度和平均损失方面表现最好。相较于基准方法—多视图卷积神经网络(multi-view convolutional neural network, MVCNN),在不同视图数下本文方法的性能最高提升了3.6%,整体分类准确度提高了5.43%。实验结果表明,相较于现有相关方法,本文方法展现出一定的优越性。结论本文提出的一种多视图信息融合的深度3D模型分类网络,深度融合多视图的一致信息和互补信息,在3D模型分类任务中获得明显的效果。  
      关键词:多视图学习;3D模型分类;一致性与互补性;改进残差网络;视图融合   
      90
      |
      115
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 69427793 false
      更新时间:2025-04-11

      图像理解和计算机视觉

    • 面向单目深度估计的多层次感知条件随机场模型 AI导读

      在计算机视觉领域,研究人员提出了一种新的单目深度估计模型,通过多层次感知条件随机场模型和混合金字塔特征融合策略,有效提高了深度估计精度。
      贾迪, 宋慧伦, 赵辰, 徐驰
      2025, 30(3): 824-841. DOI: 10.11834/jig.240260
      面向单目深度估计的多层次感知条件随机场模型
      摘要:目的从单幅影像中估计景深已成为计算机视觉研究热点之一,现有方法常通过提高网络的复杂度回归深度,增加了数据的训练成本及时间复杂度,为此提出一种面向单目深度估计的多层次感知条件随机场模型。方法采用自适应混合金字塔特征融合策略,捕获图像中不同位置间的短距离和长距离依赖关系,从而有效聚合全局和局部上下文信息,实现信息的高效传递。引入条件随机场解码机制,以此精细捕捉像素间的空间依赖关系。结合动态缩放注意力机制增强对不同图像区域间依赖关系的感知能力,引入偏置学习单元模块避免网络陷入极端值问题,保证模型的稳定性。针对不同特征模态间的交互情况,通过层次感知适配器扩展特征映射维度增强空间和通道交互性能,提高模型的特征学习能力。结果在NYU Depth v2(New York University depth dataset version 2)数据集上进行消融实验,结果表明,本文网络可以显著提高性能指标,相较于对比的先进方法,绝对相对误差(absolute relative error, Abs Rel)减小至0.1以内,降低7.4%,均方根误差(root mean square error, RMSE)降低5.4%。为验证模型在真实道路环境中的实用性,在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)数据集上进行对比实验,上述指标均优于对比的主流方法,其中RMSE降低3.1%,阈值(δ<1.252δ<1.253)准确度接近100%,此外,在MatterPort3D数据集上验证了模型的泛化性。从可视化实验结果看,在复杂环境下本文方法可以更好地估计困难区域的深度。结论本文采用多层次特征提取器及混合金字塔特征融合策略,优化了信息在编码器和解码器间的传递过程,通过全连接解码获取像素级别的输出,能够有效提高单目深度估计精度。  
      关键词:单目深度估计;条件随机场;混合金字塔特征融合(HPF);动态缩放注意力;层次感知适配器(HA)   
      46
      |
      35
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86934332 false
      更新时间:2025-04-11
    • 多类型提示互补的弱监督时序动作定位 AI导读

      在动作定位领域,研究人员提出了一种多类型提示互补模型,通过利用文本提示信息的互补性,提高了动作定位的准确性。
      任小龙, 张飞飞, 周琬婷, 周玲
      2025, 30(3): 842-854. DOI: 10.11834/jig.240354
      多类型提示互补的弱监督时序动作定位
      摘要:目的弱监督时序动作定位仅利用视频级标注来定位动作实例的起止时间并识别其类别。目前基于视觉语言的方法利用文本提示信息来提升时序动作定位模型的性能。在视觉语言模型中,动作标签文本通常被封装为文本提示信息,按类型可分为手工类型提示(handcrafted prompts)和可学习类型提示(learnable prompts),而现有方法忽略了二者间的互补性,使得引入的文本提示信息无法充分发挥其引导作用。为此,提出一种多类型提示互补的弱监督时序动作定位模型(multi-type prompts complementary model for weakly-supervised temporal action location)。方法首先,设计提示交互模块,针对不同类型的文本提示信息分别与视频进行交互,并通过注意力加权,从而获得不同尺度的特征信息;其次,为了实现文本与视频对应关系的建模,本文利用一种片段级对比损失来约束文本提示信息与动作片段之间的匹配;最后,设计阈值筛选模块,将多个分类激活序列(class activation sequence,CAS)中的得分进行筛选比较,以增强动作类别的区分性。结果在3个具有代表性的数据集THUMOS14、ActivityNet1.2和ActivityNet1.3上与同类方法进行比较。本文方法在THUMOS14数据集中的平均精度均值(mean average precision,mAP)(0.1∶0.7)取得39.1%,在ActivityNet1.2中mAP(0.5∶0.95)取得27.3%,相比于P-MIL(proposal-based multiple instance learning)方法分别提升1.1%和1%。而在ActivityNet1.3数据集中mAP(0.5∶0.95)取得了与对比工作相当的性能,平均mAP达到26.7%。结论本文提出的时序动作定位模型,利用两种类型文本提示信息的互补性来引导模型定位,提出的阈值筛选模块可以最大化利用两种类型文本提示信息的优势,最大化其辅助作用,使定位的结果更加准确。  
      关键词:弱监督时序动作定位 (WTAL);视觉语言模型;手工类型提示;可学习类型提示;分类激活序列 (CAS)   
      80
      |
      118
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 69430174 false
      更新时间:2025-04-11

      医学图像处理

    • 视网膜血管图像分割的尺度特征表示学习网络 AI导读

      在医学图像处理领域,研究者提出了一种视网膜血管图像分割网络,通过尺度特征表示学习,有效提高了血管分割的准确性,为视网膜血管疾病诊断提供辅助。
      杨可欣, 刘骊, 付晓东, 刘利军, 彭玮
      2025, 30(3): 855-869. DOI: 10.11834/jig.240120
      视网膜血管图像分割的尺度特征表示学习网络
      摘要:目的针对视网膜血管图像分割中血管特征尺度多变、毛细血管细节丰富以及视杯视盘、病变等特殊区域干扰导致的表征不精确、分割误差大以及结果不准确等问题,提出一种视网膜血管图像分割的尺度特征表示学习网络,包括尺度特征表示、纹理特征增强和双重对比学习3个模块。方法首先,输入视网膜图像集中的图像,通过引入空间自注意力构建尺度特征表示模块,对视网膜血管进行分层尺度表征;然后,采用上下文信息引导的纹理滤波器对血管尺度特征进行纹理特征增强;最后,通过采样血管尺度特征和纹理增强特征,并定义联合损失进行双重对比学习,优化两种特征空间中视杯视盘、病变等特殊区域的血管。结果为了验证方法的有效性,在3个具有挑战性的数据集上进行对比实验,结果表明,构建的视网膜血管图像分割网络有助于准确表示血管尺度特征和纹理增强特征,能够较好地获得完整的视网膜毛细血管等特殊区域的血管分割结果。本文方法在DRIVE(digital retinal images for vessel extraction)数据集中较对比的大多数方法,Acc(accuracy)值平均提高了0.67%,Sp(specificity)值平均提高了0.48%;在STARE(structured analysis of the retina)数据集中较对比的大多数方法,Se(sensitivity)值平均提高了6.01%,Sp值平均提高了6.86%;在CHASE_DB1(child heart and health study in England)数据集中较对比的大多数方法,Se值平均提高了1.88%,F1(F1 score)值平均提高了1.98%。结论本文提出的视网膜血管图像分割网络,能精准分割多尺度血管、毛细血管和特殊区域的血管,有效辅助视网膜血管疾病诊断。  
      关键词:视网膜血管图像分割;尺度特征表示;纹理特征增强;纹理滤波器;双重对比学习   
      120
      |
      130
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 69432532 false
      更新时间:2025-04-11

      遥感图像处理

    • 结合特征交互和融合的轻量级变化检测网络 AI导读

      在遥感智能解译领域,专家设计了轻量级变化检测网络FIFLNet,显著提升了变化检测性能,改善了小目标漏检、边界误检问题,为高质量变化检测结果提供解决方案。
      王仁芳, 杨梓健, 邱虹, 王峰, 高广, 吴敦
      2025, 30(3): 870-882. DOI: 10.11834/jig.240280
      结合特征交互和融合的轻量级变化检测网络
      摘要:目的利用深度学习开展变化检测是遥感智能解译热点研究方向之一。针对基于Transformer变化检测模型结构复杂、参数过多、训练耗时的问题,设计了一种融合特征交互和融合的轻量级变化检测网络(feature interaction and fusion lightweight network, FIFLNet)。方法解码器中采用EfficientNet作为特征提取网络,其能利用模型的放缩(model scaling)能力来扩大模型的感受野。然后通过设计通道、像素交互模块(spatial and channel interact block)和浅层跳跃连接(low-level skip-connection)来实现浅层双时相的细节特征交互和上采样阶段的传递,以此增加模型对局部特征的判别精度。此外,利用特征融合分组卷积模块(feature fusion and groups convolution block,FFGCB)对双时相数据进行降维融合,降低了模型计算量。最后,设计了融合上采样模块(fusion upsampling block,FUB)对局部特征与全局特征进行融合还原,同时利用局部特征的细节、纹理来补偿全局特征细节的缺失。结果本文方法在两个遥感影像数据集LEVIR-CD(landearth view image retrieval building change detection dataset)和SYSU-CD(Sun Yat-sen University change detection dataset)上与13种SOTA(state-of-the-art)方法进行比较。实验结果表明,本文方法在变化检测任务中展现出显著优势。在定量评估方面,本文方法在LEVIR-CD和SYSU-CD数据集上的F1值分别达到91.51%和82.19%,较现有最优方法分别提升0.43%和1.58%。同时,模型计算效率优异,仅需1.66 GFLOPs的运算量和0.56 M的参数规模,显著低于所有对比方法。在定性分析方面,本文方法展现出更精确的检测区域定位、更低的漏检率,并能够保留更丰富的细节特征。结论本文提出的轻量级变化检测网络FIFLNet以较少的参数量和每秒浮点运算量获得了优越的性能,改善了小目标漏检、边界误检的情况,能够获得高质量的变化检测结果。  
      关键词:遥感影像;变化检测;局部特征;特征交互;轻量级网络   
      193
      |
      234
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 67575687 false
      更新时间:2025-04-11
    • 针对多源遥感图像分类的门控跨模态聚合网络 AI导读

      在遥感应用领域,专家提出了基于门控注意力聚合网络的多源遥感图像分类方法,有效融合高光谱图像与LiDAR/SAR数据,显著提升分类性能。
      金学鹏, 高峰, 石晓晨, 董军宇
      2025, 30(3): 883-894. DOI: 10.11834/jig.240359
      针对多源遥感图像分类的门控跨模态聚合网络
      摘要:目的为了突破单一传感器的技术限制并弥补单一数据源应用的局限性,多源遥感数据融合成为了遥感应用领域的研究热点。当前的高光谱图像与激光雷达(light detection and ranging, LiDAR)/合成孔径雷达(synthetic aperture radar, SAR)数据融合分类方法未能充分利用高光谱图像的光谱特征以及LiDAR/SAR数据的地物结构信息。由于不同成像模态的图像在数据特性上存在本质差异,这些差异为多源图像特征的关联带来了重大挑战。尽管采用深度学习技术的一些方法在结合高光谱与LiDAR/SAR数据进行分类的任务中显示出了优秀的结果,但它们在融合过程中未能充分利用多源数据中的纹理信息和几何信息。方法为了应对这一关键问题,提出了一种基于门控注意力聚合网络的多源遥感图像分类方法,可以更加全面地挖掘多源数据中的互补信息。首先,设计了一个门控跨模态聚合模块,利用交叉注意力特征融合将LiDAR/SAR数据中的地物精细结构信息与高光谱图像特征有机融合。然后,使用精细化的门控模块将关键的LiDAR/SAR特征集成到高光谱图像特征中,从而增强多源数据的融合效果。结果在Houston2013和Augsburg数据集上与7种主流方法进行实验比较,在总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)和卡帕系数(Kappa coefficient,Kappa)指标上都取得了最优表现。特别是在Augsburg数据集中,本文方法在大多数类别上均取得了最佳指标。在分类的可视化结果中可以明显看出,本文所提出的分类模型在性能上具有显著优势。结论实验结果表明,本文所提出的GCA-Net(gated cross-modal aggregation network)具有优异的性能,显著优于HCT(hierarchical CNN and Transformer)、MACN(mixing self-attention and convolutional network)等主流方法。该方法能够根据不同模态的特点充分融合不同模态的信息进行分类,为多源遥感数据的融合分类提供了理论支持。  
      关键词:高光谱图像 (HSI);激光雷达 (LiDAR);合成孔径雷达 (SAR);后向散射信息;多源特征融合   
      129
      |
      149
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 69427873 false
      更新时间:2025-04-11
    0