最新刊期

    2025 30 4

      综述

    • 认知机器的模型与结构研究进展 AI导读

      在认知能力研究领域,专家探讨了机器认知模型和构建方法,为设计新一代认知机器提供新模型、结构和方法论,为探索人和机器认知机制提供新视角。
      鲍泓, 郑颖, 梁天骄
      2025, 30(4): 895-921. DOI: 10.11834/jig.240108
      认知机器的模型与结构研究进展
      摘要:机器如何与人一样具有认知能力?认知能力可用智能度量,人的智能是认知过程的涌现,人们从认知的模型出发研究其结构,结构决定机器的认知功能。本文旨在探讨机器认知的模型和构建方法,为设计新一代认知机器提供新的模型、结构和方法论。本文用分析、归纳和演绎的方法综述认知机器模型和结构的起源、演进与发展趋势。首先,从20世纪初计算机器的发明和DNA双螺旋结构模型的发现谈起,阐述了“图灵机模型 + 冯·诺依曼结构”划时代意义的科学研究成果的形成,这一模型和结构催生了通用计算机器的发明,并对计算机科学与技术等新学科的形成起到奠基作用;此后,图灵的天问“机器能思维吗”及 “图灵测试”对后来创立人工智能有重大启示和影响;然后评述近20年来 “深度学习模型 + 卷积神经网络结构”以及 “大语言模型 + 转换器结构”等的里程碑式进展和存在的问题;在最新进展部分综述当前国内外有代表性的3位科学家提出的模型和结构:“世界模型”、“空间智能”和“四要素说”,特别是以“四要素说”为基础的认知物理学,为人的认知和机器认知提供了统一的理论框架,构成了机器认知的4种基本模式——认知螺旋模型和OOXA结构链,讨论了认知核、洋葱模型和负熵概念,以驾驶脑认知为案例进行具身智能的实验验证;最后,展望了本领域未来研究和发展趋势。模型定义了机器认知的约束边界,结构决定认知机器的涌现性,通过模型 + 结构的研究方法和评价,为探索“人和机器认知的机制”和解决“机器如何认知”这样的人工智能发展的重大问题提供了一种新研究视角、路径和范式。  
      关键词:认知机器;认知物理学;认知核;模型;结构;涌现;负熵   
      49
      |
      377
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864441 false
      更新时间:2025-04-16
    • 深度学习领域单视图三维物体重建研究综述 AI导读

      在计算机视觉领域,基于深度学习的单视图三维物体重建取得进展,为工业生产、医疗诊断等提供解决方案。
      刘草, 曹婷, 康文雄, 蒋朝辉, 阳春华, 桂卫华, 梁骁俊
      2025, 30(4): 922-952. DOI: 10.11834/jig.240389
      深度学习领域单视图三维物体重建研究综述
      摘要:从单个视图恢复物体三维结构信息是计算机视觉的重要研究方向,在工业生产、医疗诊断和虚拟现实等领域发挥重要作用。传统单视图三维物体重建方法需要结合几何模板和几何假设以完成特定场景对象的三维重建任务。而当前基于深度学习的单视图三维物体重建方法通过数据驱动的方式,在重建对象适用范围和重建模型鲁棒性等方面取得进展。本文首先讨论近年来单视图三维物体重建领域常用的数据集与评价指标。然后围绕基于深度学习的单视图三维物体重建领域,对有监督学习单视图三维物体重建、无监督学习单视图三维物体重建和半监督学习单视图三维物体重建等相关研究工作进行系统性地分析和总结。最后,对基于深度学习的单视图三维物体重建方法未解决难题进行总结,并展望未来可能的发展趋势与关键技术。  
      关键词:深度学习;三维物体重建;单视图;有监督学习;无监督学习;半监督学习   
      109
      |
      208
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864524 false
      更新时间:2025-04-16
    • 人脸视频中心率变异性参数估计方法综述 AI导读

      本综述探讨了基于人脸视频的心率变异性估计技术,突出了其在健康监测和疾病诊断中的无创性和实时监控的优势。深度学习技术在HRV估计方面因其强大的模式识别能力,能够有效提取复杂视觉特征和处理非线性生理信号,在提高估计精度方面展现出显著优势。本综述旨在提供基于人脸视频的HRV估计技术的全面视角,为学术界和工业界的技术创新和应用拓展提供重要参考。
      周才英, 占新龙, 魏远旺, 张先超, 李永刚, 王超超, 叶晓朗
      2025, 30(4): 953-976. DOI: 10.11834/jig.240314
      人脸视频中心率变异性参数估计方法综述
      摘要:本综述探讨了基于人脸视频的心率变异性(heart rate variability,HRV)估计技术,突出了其在健康监测和疾病诊断中的无创性和实时监控的优势。首先,解析了HRV的生理学基础和核心参数的定义,阐明了其在医疗保健领域的应用潜力。接着,详细介绍了人脸视频采集的技术细节、数据预处理流程,重点讨论了多种HRV参数估计方法,包括传统信号处理技术和深度学习算法。分析表明,深度学习技术在HRV估计方面因其强大的模式识别能力,能够有效提取复杂视觉特征和处理非线性生理信号,在提高估计精度方面展现出显著优势。本综述还对比了传统方法和深度学习方法在不同应用场景中的表现,指出了各自的优势与局限性,并总结了基于人脸视频HRV估计技术的实际应用案例,如健康评估、情绪识别、精神压力评估、疲劳检测和心血管疾病早期预警等。因此,本综述提出了未来研究的方向,包括降低头部运动和环境光变化的干扰、优化模型选择及减少对训练数据的依赖等,以促进HRV估计技术的发展。本综述旨在提供基于人脸视频的HRV估计技术的全面视角,为学术界和工业界的技术创新和应用拓展提供重要参考。  
      关键词:心率变异性(HRV);人脸视频;生理监测;信号处理;深度学习   
      193
      |
      227
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 77026304 false
      更新时间:2025-04-16

      Transformer跨模态感知

    • YOLO-SF-TV: 经颅超声图像三脑室检测模型 AI导读

      最新研究报道,YOLO-SF-TV模型在经颅超声三脑室检测中表现出色,准确率显著提升,为帕金森病早期诊断提供新工具。
      万奥, 高红铃, 周晓, 薛峥, 牟新刚
      2025, 30(4): 977-988. DOI: 10.11834/jig.240293
      YOLO-SF-TV: 经颅超声图像三脑室检测模型
      摘要:目的经颅超声成像技术作为高效率、低成本且无创的诊断手段,已逐步应用于帕金森病患者认知功能障碍诊断。由于经颅超声图像信噪比低、成像质量差、目标组织复杂且相似度高,需要依赖专业医生手动检测。但是人工检测不仅费时费力,还可能因为操作者的主观因素影响,造成检测结果出现差异性。针对这一问题,提出了一种基于Swin Transformer和多尺度深度特征融合的YOLO-SF-TV(YOLO network based on Swin Transformer and multi-scale deep feature fusion for third ventricle)模型用于经颅超声图像三脑室检测,以提高临床检测准确率,辅助医生进行早期诊断。方法YOLO-SF-TV模型在YOLOv8的基础上使用基于窗口注意力的Swin Transformer作为模型特征提取网络,并引入空间金字塔池化合模块SPP-FCM(spatial pyramid pooling fast incorporating CSPNet and multiple attention mechanisms)扩大网络感受野,并增强多尺度特征融合能力。在网络的多尺度特征融合部分结合深度可分离卷积和多头注意力机制,提出了PAFPN-DM(path aggregation and feature pyramid network with depthwise separable convolution)模块,并对主干特征输出层增加多头注意力机制,以提高网络对不同尺度特征图中全局和局部重要信息的理解能力。同时,将传统卷积替换为深度可分离卷积模块,通过对每个通道单独卷积提高网络对不同通道的敏感性,以保证模型准确度的同时降低训练参数和难度,增强模型的泛化能力。结果在本文收集的经颅超声三脑室图像数据及对应标签的数据集上进行实验,并与典型的目标检测模型对比。实验结果表明,本文提出的YOLO-SF-TV在经颅超声三脑室目标上的平均精确度均值(mean average precision, mAP)达到98.69%,相比于YOLOv8提升了2.12%,与其他典型模型相比检测精度达到最优。结论本文提出的YOLO-SF-TV模型在经颅超声图像三脑室检测问题上表现优秀,SPP-FCM模块和PAFPN-DM模块可以增强模型检测能力,提高模型泛化性和鲁棒性。同时,本文制作的数据集将有助于推动经颅超声三脑室图像检测问题的研究。  
      关键词:经颅超声成像;计算机辅助诊断(CAD);三脑室;深度学习;YOLOv8;Swin Transformer   
      75
      |
      96
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864592 false
      更新时间:2025-04-16
    • 面向高光谱全色锐化的混合注意力双分支U型网络 AI导读

      在高光谱全色锐化领域,研究者提出了基于混合注意力机制的双分支U-Net结构DUNet-HA,有效融合空间—光谱信息,显著提升高光谱全色锐化结果图像的质量。
      杨勇, 王晓争, 刘轩, 黄淑英, 刘紫阳, 王书昭
      2025, 30(4): 989-1002. DOI: 10.11834/jig.240410
      面向高光谱全色锐化的混合注意力双分支U型网络
      摘要:目的高光谱(hyperspectral, HS)全色锐化旨在融合高空间分辨率全色(panchromatic, PAN)图像和低空间分辨率高光谱(low resolution hyperspectral, LRHS)图像,生成高空间分辨率高光谱(high resolution hyperspectral, HRHS)图像。现有全色锐化算法往往忽略PAN和HS图像之间的模态差异,从而造成特征提取不精确,导致融合结果中存在光谱畸变和空间失真。针对这一问题,提出一种基于混合注意力机制的双分支U-Net(dual-branch U-Net based on hybrid attention, DUNet-HA),实现PAN与HS图像的多尺度空间—光谱特征的提取和融合。方法设计混合注意力模块(hybrid attention module, HAM)对网络中的每个尺度特征进行编码。在HAM中,利用通道和空间自注意力模块来增强光谱和空间特征,构建一个双交叉注意力模块(double cross attention module, DCAM),通过学习PAN与HS图像跨模态特征的空间—光谱依赖关系来引导两种特征的重建。与经典的混合Transformer结构相比,设计的DCAM可以通过计算与查询位置无关的交叉注意力权重来实现两种图像特征的校正,在降低模型计算量的同时,提升网络的性能。结果在3个广泛使用的HS图像数据集上与11种方法进行对比,在Pavia center数据集中,相比性能第2的方法hyperRefiner,峰值信噪比(peak signal-to-noise ratio, PSNR)提升了1.10 dB,光谱角制图(spectral angle mapper, SAM)降低了0.40;在Botswana数据集中,PSNR提升了1.29 dB,SAM降低了0.14;在Chikusei数据集中,PSNR提升了0.39 dB,SAM降低了0.12。结论实验结果表明,所提出的DUNet-HA结构能更好地融合空间—光谱信息,显著提升高光谱全色锐化结果图像的质量。  
      关键词:高光谱全色锐化;模态差异;混合注意力模块(HAM);双交叉注意力模块(DCAM);Transformer;空间—光谱依赖关系   
      87
      |
      122
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 70933566 false
      更新时间:2025-04-16
    • 用于遥感场景分类的全局—局部特征耦合网络 AI导读

      在遥感场景分类领域,专家提出了全局—局部特征耦合网络,有效提升了模型特征学习能力,缓解了自注意力机制的计算压力。
      王俊杰, 李伟, 张蒙蒙, 高云浩, 赵伯禹
      2025, 30(4): 1003-1016. DOI: 10.11834/jig.240228
      用于遥感场景分类的全局—局部特征耦合网络
      摘要:目的卷积神经网络(convolutional neural network,CNN)因其强大的特征归纳和学习能力,在遥感场景分类任务中收获了广泛的关注。然而,由于卷积采取的是一种局部归纳机制,这阻碍了全局依赖关系的获取,并限制了模型的性能。而视觉Transformer(visual Transformer,ViT)的核心在于自注意力机制,它能够建立全局依赖关系,这一属性可以缓解基于卷积神经网络算法的局限性。然而,自注意力机制也带来了更大的计算代价:在计算成对的key-value之间的交互关系时,需要在所有空间位置上进行相关计算,从而带来巨大的计算压力和内存负担。此外,自注意机制关注于建模全局信息,而忽略了局部特征细节。为了解决上述问题,提出了一种全局—局部特征耦合网络用于遥感场景分类。方法一方面为了缓解自注意力机制所带来的计算压力,提出了一种双粒度注意力来动态感知数据内容,从而实现更灵活的计算分配;另一方面,为了更好地结合全局和局部特征,利用了一种自适应耦合模块来实现全局和局部特征的融合。结果在UCM(UC merced land-use)、AID(aerial image dataset)和NWPU-RESISC45(Northwestern Polytechnical University remote sensing image scene classification dataset) 3个数据集上进行了实验。为了更好地展示本文方法的优越性,与当前先进的基于卷积神经网络和基于视觉Transformer的方法进行了对比,在不同的训练比率下,本文方法在3个数据集上分别取得了99.71%(UCM数据集),94.75%(AID数据集训练比率20%),97.05%(AID数据集训练比率50%),92.11%(NWPU-RESISC45数据集训练比率10%)以及94.10%(NWPU-RESISC45数据集训练比率20%)的最优分类表现,相较于其他对比方法分别有至少0.14%,0.06%,0.27%,0.43%以及0.21%的效果提升。结论本文方法不仅缓解了自注意力机制中沉重的计算和内存负担,同时将局部细节特征与全局信息相结合,有效提升了模型的特征学习能力。  
      关键词:场景分类;遥感图像;全局和局部特征;耦合模块;注意力机制   
      40
      |
      67
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864373 false
      更新时间:2025-04-16
    • 报道:最新研究提出基于混合注意力和双向门控网络的高光谱图像变化检测方法,有效提升检测准确性,显著优于BiT、CBANet等主流方法。
      李相潭, 高峰, 孙悦, 董军宇
      2025, 30(4): 1017-1026. DOI: 10.11834/jig.240360
      针对高光谱遥感图像变化检测的混合注意力和双向门控网络
      摘要:目的高光谱图像能提供丰富的光谱和空间信息,但常受到多种噪声的干扰,增加了其在变化检测领域应用的复杂性。为了解决上述问题,提出一种基于混合注意力和双向门控网络的高光谱图像变化检测方法,旨在提升变化检测的性能,从而在复杂环境和多变条件下实现更可靠的变化检测。方法通过整合局部和全局特征,改进了Transformer中的自注意力和前馈神经网络。具体而言,提出了混合注意力模块,采用卷积神经网络(convolutional neural network, CNN)和gMLP(gated multi-layer perceptron)的并行结构,分别提取图像的局部特征和全局上下文信息,有效平衡局部细节和全局上下文的特征提取,起到抑制噪声的作用。同时,构建了双向门控网络,强化通道和空间维度的特征提取,进一步增强全局与局部信息的融合,实现了多时相高光谱图像特征的深度融合。结果实验在3个数据集上与主流的6种方法进行了比较,在Framland数据集中,相比于BiT(bitemporal image Transformer)模型,准确率和Kappa系数分别提高0.34%和2.02%;在Hermiston数据集中,相比于CBANet(cross-band 2-D self-attention network)模型,准确率和Kappa系数分别提高1%和2.08%。同时消融实验结果证明,混合注意力模块和双向门控网络能有效地融合局部与全局信息,提升变化检测的精度。结论本文方法通过高效融合局部和全局特征,显著提升了变化检测的准确性,证明了其在实际应用中的潜力。在3个高光谱数据集的大量实验结果表明,本文方法在变化检测任务中性能优异,显著优于BiT、CBANet等主流方法。  
      关键词:变化检测;高光谱图像 (HSI);遥感技术;双向注意力;Transformer   
      216
      |
      209
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 70933463 false
      更新时间:2025-04-16
    • 改进实时目标检测Transformer的持刀危险行为检测算法 AI导读

      在公安系统视频数据分析领域,专家提出了HK-DETR算法,有效提高了持刀危险行为检测的精度和效率。
      金涛, 胡配雨
      2025, 30(4): 1027-1040. DOI: 10.11834/jig.240295
      改进实时目标检测Transformer的持刀危险行为检测算法
      摘要:目的在对公安系统网络摄像头获取的视频数据进行分析时,行人危险持刀行为的自动检测面临刀具形状、大小的多样性,以及遮挡和多目标重叠等因素导致的检测精度低、误检率高的挑战。针对上述问题,提出了一种改进实时目标检测Transformer(real-time detection Transformer,RT-DETR)的持刀危险行为检测算法(human-knife detection Transformer,HK-DETR)。方法首先,设计了倒置残差级联模块(inverted residual cascade block,IRCB)作为主干网络中的基本块(BasicBlock),这使得网络更加轻量化,减少了计算冗余,并提高了对全局特征和长距离依赖关系的理解能力;其次,提出了跨阶并行空洞融合网络结构(cross stage partial-parallel multi-atrous convolution,CSP-PMAC),专注于多尺度特征的提取,使模型能有效识别不同大小和角度的刀具;最后,引入了Haar小波下采样(Haar wavelet-based downsampling,HWD)模块来替换原模型中的下采样操作,为多尺度特征融合提供了更丰富的信息。同时,采用了最小点距离交并比(minimum point distance based intersection over union,MPDIoU)损失函数来进一步提升检测性能。结果对比实验表明,与原RT-DETR算法相比,改进后的模型网络参数量下降了25%,精度、召回率、平均精度均值(mean average precision,mAP)分别提高了2.3%、5.5%、5.2%;与YOLOv5m、YOLOv8m和Gold-YOLO-s相比,在模型网络参数量较低的情况下mAP又分别提高了6.3%、5.2%、1.8%。结论本文提出的HK-DETR算法能够有效适应网络摄像头下多种复杂环境的持刀危险行为检测场景,相较于其他参与对比的模型,其性能优势得到了充分的展现。  
      关键词:持刀行为检测;实时目标检测Transformer(RT-DETR);目标检测;多尺度特征融合;Transformer;危险行为检测   
      147
      |
      113
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 70933606 false
      更新时间:2025-04-16

      数据集

    • 室内大尺度全景视觉定位数据集 AI导读

      在计算机视觉领域,研究人员提出了基于全景相机的大尺度室内视觉定位基准数据集,为评估视觉定位算法提供全面解决方案。
      余海林, 刘佳润, 叶智超, 陈信宇, 占若豪, 申屠溢醇, 陆仲赟, 章国锋
      2025, 30(4): 1041-1058. DOI: 10.11834/jig.240284
      室内大尺度全景视觉定位数据集
      摘要:目的视觉定位广泛应用于自动驾驶、移动机器人和增强现实等领域,是计算机视觉领域的关键技术之一。现有的室内视觉定位数据集在重复纹理、对称结构和相似场景等方面不能完全反映出实际应用中的挑战,缺少相应指标反映视觉定位在实际应用中的问题。针对这些问题,提出一个基于全景相机的大尺度室内视觉定位基准数据集。方法选取了4种在实际应用中具有代表性的视觉定位场景,使用全景相机对选取场景进行分时段稠密采集,获取不同时间段下的室内全景数据。设计一种面向大尺度场景的全景建图算法对采集的数据进行高效准确地重建;同时设计一种基于建筑计算机辅助设计(computer-aided design,CAD)图的尺度恢复算法以恢复重建的真实尺度。通过激光测量和渲染对比方式对所提大尺度室内视觉定位数据集的精度进行定量和定性分析。此外,设计一种新的视觉定位算法评估指标——注册率和误定位率曲线,结合常用评估指标和所提指标对当前视觉定位算法进行全面地评估和分析。结果提出的室内大场景视觉定位数据集总覆盖面积超过20 000 m2。评估结果显示当前较先进的方法在本文数据集上仍有很大的提升空间。注册率和误定位率曲线反映出当前视觉定位算法无法有效地避免误定位问题,在保持较低误定位率的条件下,当前最先进算法的注册率在多个场景下不到50%。结论本文所提的室内视觉定位数据集和指标有助于更为全面地评估视觉定位算法,有助于研究人员对比和改进算法,有助于推动视觉定位在实际室内应用场景中的发展。数据集获取链接:https://github.com/zju3dv/PanoIndoor。  
      关键词:视觉定位;数据集;特征匹配;位姿求解;重复纹理   
      64
      |
      115
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 75674563 false
      更新时间:2025-04-16
    • 扩散模型生成视频数据集及其检测基准研究 AI导读

      在视频生成领域,专家创建了大规模多类型生成视频数据集DGVD,为生成视频检测提供新基准,推动领域发展。
      郑天鹏, 陈雁翔, 温心哲, 李严成, 王志远
      2025, 30(4): 1059-1071. DOI: 10.11834/jig.240259
      扩散模型生成视频数据集及其检测基准研究
      摘要:目的扩散模型在视频生成领域取得了显著的成功,目前用于视频生成的扩散模型简单易用,也更容易让此类视频被随意滥用。目前,视频取证相关的数据集更多聚焦在人脸伪造领域上,缺少通用场景的描述,使生成视频检测的研究具有局限性。随着视频扩散模型的发展,视频扩散模型可以生成通用场景视频,但目前生成视频数据集类型单一,数据量少,且部分数据集不包含真实视频,不适用于生成视频检测任务。为了解决这些问题,提出了包含文本到视频(text to video, T2V)和图像到视频(image to video, I2V)两种方法的多类型、大规模的生成视频数据集与检测基准。方法使用现有的文本到视频和图像到视频等扩散视频生成方法,生成类型多样、数量规模大的生成视频数据,结合从网络获取的真实视频数据得到最终数据集。T2V视频生成中,使用15种类别的提示文本生成场景丰富的T2V视频,I2V使用下载的高质量图像数据集生成高质量的I2V视频。为了评估数据集生成视频的质量,使用目前先进的生成视频评估方法对视频的生成质量进行评估,以及使用视频检测方法进行生成视频的检测工作。结果创建了包含T2V和I2V两类生成视频的通用场景生成视频数据集,扩散模型生成视频数据集(diffusion generated video dataset,DGVD)并结合当前先进的生成视频评估方法EvalCrafter和AIGCBench提出了包含T2V和I2V的生成视频质量估计方法。生成视频检测基准使用了4种图像级检测方法CNNdet (CNN detection)、DIRE(diffusion reconstruction error)、WDFC(wavelet domain forgery clues)和 DIF(deep image fingerprint)以及6种视频级检测方法I3D(inflated 3D)、X3D(expand 3D)、C2D(convnets 2D)、Slow、SlowFast和MViT(multiscale vision Transformer),其中图像级检测方法无法对未知数据进行有效检测,泛化性较差,而视频级检测方法能够对同一骨干网络实现方法生成的视频有较好的表现,具有一定泛化能力,但仍然无法在其他网络中实现较好的指标。结论本文创建了生成类别丰富、场景多样的大规模视频数据集,该数据集和基准完善了生成视频检测任务在此类场景下数据集和基准不足的问题,有助于促进生成视频检测领域的发展。论文相关数据集与代码下载地址:https://cstr.cn/31253.11.sciencedb.22031和https://github.com/ZenT4n/DVGD。  
      关键词:视频生成;扩散模型;生成视频检测;提示文本生成;视频质量评估   
      124
      |
      103
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 75674294 false
      更新时间:2025-04-16

      图像处理和编码

    • 感知约束和引导下的特征点增强局部水印算法 AI导读

      在图像版权保护领域,专家提出了一种感知约束和引导下的特征点增强局部水印算法,有效提高了特征点稳定性,增强了水印鲁棒性和不可感知性。
      郭娜, 黄樱, 牛保宁, 关虎, 兰方鹏, 张树武
      2025, 30(4): 1072-1083. DOI: 10.11834/jig.240348
      感知约束和引导下的特征点增强局部水印算法
      摘要:目的图像水印技术通过在图像中嵌入标识版权的水印信息来实现版权保护。其中,局部水印技术将水印嵌入特定图像区域,可防止水印被裁剪攻击破坏,同时尽量减小视觉影响。该技术通常利用特征点进行局部区域的定位和同步。然而,水印嵌入及后续可能的图像攻击容易引起特征点偏移,导致无法准确定位嵌入区域,造成水印提取失败。因此,提高特征点稳定性对局部水印技术的可靠性至关重要。方法本文提出感知约束和引导下的特征点增强局部水印算法,通过自适应修改图像像素一次,同时实现水印嵌入和特征点增强两种操作,达到增强特征点稳定性、提高水印鲁棒性和保证水印不可感知性3种效果。算法的自适应性体现在两个方面:1)使用优化函数寻找最佳像素修改方案,在嵌入水印的同时增强特征点强度,避免水印嵌入削弱特征点稳定性,增强其抗攻击能力,提高水印的鲁棒性;2)水印嵌入过程中的像素修改总量由峰值信噪比约束,并根据感知引导模型实现各像素修改量的差异化分配,最大限度地确保水印的不可感知性。结果实验结果表明,本文算法对特征点的稳定性有显著增强,在嵌入水印图像的峰值信噪比高于40 dB的前提下,水印提取的准确率在大多数攻击的情况下都优于目前先进局部水印算法。结论本文算法有效提高了特征点的稳定性,在水印不可见性和水印鲁棒性方面均获得了更优的效果。  
      关键词:局部水印技术;特征点;感知引导;不可感知性;鲁棒性   
      23
      |
      66
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109438 false
      更新时间:2025-04-16
    • 多尺度大核注意力特征融合网络的图像超分辨率重建 AI导读

      在计算机视觉领域,研究者提出了一种超分辨率重建新方法MLFN,有效提升了图像重建精度和模型性能。
      宋霄罡, 张鹏飞, 刘万波, 鲁晓锋, 黑新宏
      2025, 30(4): 1084-1099. DOI: 10.11834/jig.240042
      多尺度大核注意力特征融合网络的图像超分辨率重建
      摘要:目的图像超分辨率重建是计算机视觉领域内的基础任务。卷积神经网络通过滑动窗口机制和参数共享特性能够有效提取局部特征,但对图像远距离信息的感知能力较弱。Transformer中的自注意力机制可以更好地捕捉序列中的全局依赖关系,但同时会带来高额计算资源占用的问题。方法为了解决这些问题,本文提出了一种基于多尺度大核注意力特征融合网络的超分辨率重建方法MLFN(multi-scale large kernel attention feature fusion network),该网络采用多路径结构学习不同的水平特征表示,从而增强网络的多尺度提取能力。此外,设计了一种多尺度大核可分离卷积块,它兼顾了自注意力机制强大的全局信息捕捉能力和卷积强大的局部感知能力,能更好地提取全局特征与局部特征。同时,在末端加入了轻量级的标准化注意力模块,在进一步增强模型性能的同时,实现了网络模型的轻量化设计。结果基于5个公开测试数据集,与11种代表性方法进行了实验对比,结果表明本文方法在不同放大倍数下均有最佳表现,所提MLFN比信息多重蒸馏网络(iterative mean distillation network,IMDN)的峰值信噪比(peak signal-to-noise ratio,PSNR)平均提升0.2 dB,重建图像在视觉上具有明显优势。结论本文提出了一种基于多尺度大核注意力特征融合网络的超分辨率重建方法,借助精心设计的多尺度大核可分离卷积块,有效提高了网络的长距离关系建模能力,利用多路提取块引入多尺度特征进一步提高重建精度,引入标准化注意力模块在实现性能提升的同时维持较低的计算资源消耗。  
      关键词:图像超分辨重建;大核可分离卷积;注意力机制;特征融合;多路学习   
      85
      |
      130
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864739 false
      更新时间:2025-04-16
    • MSFF-GAN:云雾环境下结冰风洞图像去雾模型 AI导读

      在结冰风洞图像处理领域,研究人员提出了MSFF-GAN去雾方法,有效改善云雾环境下图像质量,为飞机结冰研究提供精准数据。
      周文俊, 杨新龄, 左承林, 王一帆, 彭博
      2025, 30(4): 1100-1117. DOI: 10.11834/jig.240343
      MSFF-GAN:云雾环境下结冰风洞图像去雾模型
      摘要:目的结冰风洞是地面实验的关键设备,可模拟云雾环境,对研究结冰对飞机性能的影响极为重要。但云雾环境会降低图像质量,这不仅阻碍了对结冰过程的细致观察,还减少了结冰检测与分析的准确度。鉴于此,提出了一种新的图像去雾方法——多尺度特征融合生成对抗网络(multi-scale feature fusion generative adversarial network, MSFF-GAN),旨在改善结冰风洞云雾环境下的图像质量,提高研究精度。方法利用生成对抗网络的能力,MSFF-GAN高效去除结冰风洞图像的雾,核心在于其生成器的特征融合和增强策略。特征融合模块通过反投影技术精准融合了图像多尺度特征,增强策略模块通过简洁网络结构细化中间结果,优化图像质量。本文还设计了一种先验特征融合模块,有效整合至网络中。此外,通过多尺度判别器策略获得全面上下文信息,显著提升视觉质量。同时,采用多重损失函数共同优化去雾模型,确保最优去雾效果。结果在6种结冰风洞云雾场景下,对比了MSFF-GAN去雾方法与其他传统及基于深度学习的云雾方法。实验结果显示,结冰风洞云雾环境下MSFF-GAN生成的去雾图像更清晰,去雾效果更显著,且在相关评价指标上表现优异。结论MSFF-GAN在结冰风洞云雾环境中展示出卓越的去雾效果和良好的泛化性,为结冰风洞图像的清晰化处理提供了新思路,有望为飞机结冰与防除冰研究提供更精准、可靠的机翼结冰图像数据。  
      关键词:结冰风洞;云雾环境;机翼结冰图像去雾;生成对抗网络(GAN);多尺度特征融合   
      138
      |
      101
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864630 false
      更新时间:2025-04-16
    • 面向透射文档图像复原的模糊扩散模型 AI导读

      在文档图像处理领域,专家提出了一种模糊扩散模型,有效解决了透射现象,提高了图像去透射任务的准确性和效率。
      王义杰, 龚嘉鑫, 梁宗宝, 崇乾鹏, 程翔, 徐金东
      2025, 30(4): 1118-1129. DOI: 10.11834/jig.240350
      面向透射文档图像复原的模糊扩散模型
      摘要:目的在对文档进行数码成像时,墨水浓度和材质透明度等因素可能会导致文档背面内容透过纸张变得可见,从而导致数字图像中出现透射现象,影响文档图像的实际使用。针对这一现象,提出了一种模糊扩散模型,基于模糊逻辑的均值回归思想,不需要任何先验知识,增强扩散模型处理文档图像中随机因素的能力,不仅解决了文档图像的透射现象,而且增强了图像的视觉效果。方法所提方法通过均值回归随机微分方程连续添加随机噪声降低原始图像质量,将其转换为带有固定高斯噪声的透射均值状态,随后在噪声网络中引入模糊逻辑操作来推理每个像素点的隶属度关系,使模型更好地学习噪声和数据分布,在逆向过程中,通过模拟相应的逆时间随机微分方程来逐渐恢复低质量图像,获得干净的无透射图像。结果将所提方法分别在合成灰度数据集和合成彩色数据集上进行训练,并在3个合成数据集和2个真实数据集上进行测试,与代表性的5种方法进行了比较,所提方法取得了最好的视觉效果,且在一定程度上消除了原始图像中的噪声。在峰值信噪比(peak signal-to-noise ratio, PSNR)、结构相似性(structural similarity index, SSIM)、学习感知图像块相似度(learned perceptual image patch similarity, LPIPS)和费雷歇初始距离(Fréchet inception distance, FID)4个评价指标上均取得了最好的结果。结论本文方法能够有效地解决不同类型文档图像中的透射现象,提高了文档图像去透射任务的准确性和效率,有望集成到各种摄像头、扫描仪等实际硬件设备。  
      关键词:扩散模型;模糊逻辑;图像复原;透射去除;随机微分方程(SDE)   
      93
      |
      143
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 70934168 false
      更新时间:2025-04-16

      图像分析和识别

    • 光场角度线索表征的语义分割研究 AI导读

      在光场语义分割领域,专家提出了一种端到端网络模型,有效提升了分割性能,为光场技术在场景理解中的应用提供了新方向。
      程欣怡, 贾晨, 张梓轩, 石凡
      2025, 30(4): 1130-1140. DOI: 10.11834/jig.240391
      光场角度线索表征的语义分割研究
      摘要:目的当前的光场语义分割方法局限于单一物体,手工特征表达鲁棒性差且缺乏高层角度语义信息,针对上述不足,提出了一种适用于静态图像的端到端语义分割网络,充分挖掘了深度卷积神经网络对光场图像特征的表征潜力,探索了空间和角度结构关系以解决过分割和欠分割问题。方法从多尺度光场宏像素图像构造出发,基于多种骨干网络设计,提出了一个高效角度特征提取器(angular feature extractor, AFE)与空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结合的光场语义分割模型。其中,在编码器模块中采用ASPP以高效地提取并融合宏像素图像中的多尺度空间特征,提高模型对复杂场景的适应能力;在解码器中设计AFE用于提取宏像素图像中的角度结构线索,减少特征在连续下采样过程中造成的角度信息丢失。结果通过在LF Dataset开源数据集上与7种光场最佳方法(state-of-the-art, SOTA)进行实验,利用ResNet101作为骨干网络时所提模型在测试集上实现了88.80%的平均交并比(mean intersection over union, mIoU),在所有对比方法中是最佳的。结论本文所提模型在提升语义分割性能方面具有可行性和有效性,能够更加精确地捕捉到图像中细微变化的信息,实现更精确的边界分割,为光场技术在场景理解中的应用提供了新的研究方向。  
      关键词:语义分割;光场成像;宏像素图像;角度线索;空洞卷积   
      28
      |
      66
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109751 false
      更新时间:2025-04-16
    • 多特征聚合的边界引导视频图像显著目标检测 AI导读

      在视频显著目标检测领域,专家提出了多特征聚合的边界引导网络,有效提升了检测出的显著目标边界质量。
      张荣国, 郑晓鸽, 王丽芳, 胡静, 刘小君
      2025, 30(4): 1141-1154. DOI: 10.11834/jig.240243
      多特征聚合的边界引导视频图像显著目标检测
      摘要:目的视频显著目标检测的目的是识别和突出显示视频中的重要对象或区域。现有的方法在挖掘边界线索和时空特征之间的相关性方面存在不足,并且在特征聚合过程中未能充分考虑相关的上下文信息,导致检测结果不够精确。因此提出了多特征聚合的边界引导网络,进行显著目标边界信息和显著目标时空信息之间的互补协作。方法首先,提取视频帧显著目标的空间和运动特征,在不同分辨率下将显著目标边界特征与显著目标时空特征耦合,突出运动目标边界的特征,更准确地定位视频显著目标;其次,采用了多层特征注意聚合模块以提高不同特征的表征能力,使得各相异特征得以充分利用;同时在训练阶段采用混合损失来帮助网络学习,以更加准确地分割出运动目标显著的边界区域,获得期望的显著目标。结果实验在4个数据集上与现有的5种方法进行了比较,所提方法在4个数据集上的F-measure值均优于对比方法。在DAVIS(densely annotated video segmentation)数据集上,与性能次优的模型相比,F-measure值提高了0.2%,S-measure值略低于最优值0.7%;在FBMS(Freiburg-Berkeley motion segmentation)数据集上,F-measure值比次优值提高了0.9%;在ViSal数据集上,平均绝对误差(mean absolute error,MAE)值仅低于最优方法STVS(spatial temporal video salient) 0.1%,F-measure值比STVS提高了0.2%;在MCL据集上,所提方法实现了最优的MAE值2.2%,S-measure值和F-measure值比次优方法SSAV(saliency-shift aware VSOD)分别提高了1.6%和0.6%。结论提出的方法能够有效提升检测出的视频显著目标的边界质量。  
      关键词:视频图像;显著性目标检测;边界引导;多尺度特征;特征聚合   
      39
      |
      92
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79110121 false
      更新时间:2025-04-16

      图像理解和计算机视觉

    • 三维风格化人脸生成与结构化建模 AI导读

      在三维人脸风格化领域,研究者提出了基于样例的三维人脸风格化与结构化建模方法,有效构建高质量结构化三维风格人脸模型,生成高质量全角度风格人脸视图与纹理贴图。
      胡佳平, 周漾
      2025, 30(4): 1155-1169. DOI: 10.11834/jig.240380
      三维风格化人脸生成与结构化建模
      摘要:目的现有的三维人脸风格化方法难以生成较大相机姿态的人脸视图,或止步于生成多角度的人脸视图,而非结构化的三维网格模型。鉴于此,提出一种基于样例的三维人脸风格化与结构化建模方法。方法该方法不仅能够合成新的全相机视角下的风格化人脸视图,还具有生成结构化的人脸三维网格模型的能力,即包括人脸三维网格以及对应的纹理贴图。具体来说,提出了一个两阶段的结构化三维风格人脸生成框架,主要包括三维感知人脸生成器域迁移、基于多视图约束的人脸纹理优化两个步骤。首先,利用二维人脸风格化数据增强策略微调三维感知生成器,然后通过一个视图对齐策略对齐基于隐式神经场的渲染视图以及基于三维网格的渲染视图,再利用多视图约束的梯度回传优化人脸模型的纹理贴图,最后通过融合多幅纹理贴图得到最终的纹理贴图。结果本文三维感知人脸生成结果FID(Fréchet inception distance)指标优于对比实验中基于扩散模型的方法,并能在多种风格域中生成整洁高质量的结构化人脸模型。结论该方法能够有效构建高质量的结构化三维风格人脸模型,生成高质量的全角度风格人脸视图与纹理贴图。此外,显式构建的结构化人脸模型能够更为便捷地用于三维人脸相关下游任务。  
      关键词:视觉内容生成;三维风格人脸生成;三维感知生成;域迁移;纹理优化   
      90
      |
      103
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 70933411 false
      更新时间:2025-04-16

      医学图像处理

    • 结合知识蒸馏与互信息的多模态MRI疾病预后 AI导读

      在非缺血性扩张型心肌病预后领域,研究者提出了一种基于混合匹配蒸馏与对比互信息估计的多模态心脏磁共振图像预后模型,有效提高了小样本场景下的预后准确性。
      魏然, 戚晓明, 何宇霆, 江升, 钱雯, 徐怡, 祝因苏, Pascal Haigron, 舒华忠, 杨冠羽
      2025, 30(4): 1170-1182. DOI: 10.11834/jig.240349
      结合知识蒸馏与互信息的多模态MRI疾病预后
      摘要:目的多模态心脏磁共振(cardiac magnetic resonance,CMR)图像预测非缺血性扩张型心肌病(non-ischemic dilated cardio myopathy,NIDCM)的预后在对临床中心力衰竭或心源性猝死等不同应用中发挥着重要作用。针对多模态CMR图像预后表征困难和标注困难两个挑战,提出了一种基于混合匹配蒸馏与对比互信息估计的模型,用于小样本上的多模态CMR图像对NIDCM预后。方法本文的预后模型有两种不同的设计,解决深度学习网络中多模态CMR图像的表征困难和模型容易陷入局部最优的问题。首先将不同模态CMR图像组合为不同的模态对,并提取对应的图像特征。由于不同模态对的预后目标一致而图像特征分布之间存在差异,因此设计一种混合匹配蒸馏网络,利用逻辑分布一致性将不同图像特征分布关联匹配,以此约束深度学习网络中多模态特征的提取和引导联合表征。然后在不同模态对之间设计一种互信息的对比学习策略,从而估计出多模态分布上的潜在的分类边界,以此作为预后模型的正则化项,避免模型在有限的数据上陷入局部最优。结果实验在一个NIDCM临床数据集上分别与6种方法进行了比较。F1值和准确率值达到81.25%和85.61%;为了验证模型的泛化性,在一个脑肿瘤公共数据集上也分别与4种方法进行了比较,F1值和准确率值达到85.07%和87.72%。结论本文所提出的基于混合匹配蒸馏与对比互信息估计的预后网络模型对多模态CMR图像进行了有效表征,同时利用多模态之间的潜在互信息增强深度学习模型在小样本场景下的模型优化,最终使得多模态CMR图像对的NIDCM预后结果更加准确。  
      关键词:对比学习;混合蒸馏;多模态心脏磁共振(CMR)图像;互信息估计;预后   
      63
      |
      88
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 75674364 false
      更新时间:2025-04-16
    • 嵌入切片序列关联模式的前交叉韧带损伤分类 AI导读

      在膝关节前交叉韧带损伤诊断领域,专家提出了SSAMNet模型,有效提高了诊断准确性和特异性,具有临床应用价值。
      刘英莉, 茶寅秋, 黄一山, 高明
      2025, 30(4): 1183-1194. DOI: 10.11834/jig.240302
      嵌入切片序列关联模式的前交叉韧带损伤分类
      摘要:目的膝关节前交叉韧带(anterior cruciate ligament,ACL)损伤的及时诊断是降低骨关节炎等风险重要途径。作为ACL损伤判别的常用影像学方法,三维磁共振成像(magnetic resonance imaging,MRI)相较于二维自然图像细节更繁杂,医生诊断所需时间长,智能辅助医疗是有益的。目前应用三维卷积神经网络(3D convolutional neural network,3D CNN)的ACL损伤分类算法存在计算成本大且数据使用不充分的问题,而基于二维卷积神经网络(2D convolutional neural network,2D CNN)的方法则忽略了第三维度的相关性和ACL的形态多样性。方法提出一种嵌入切片序列关联模式的网络(slice sequence association mode network,SSAMNet)。SSAMNet通过设计切片序列信息融合(slice sequence information fusion,SFS)模块从MRI数据的邻近、全量切片中并行学习序列性质,建立切片特征映射中的关联模式,整合切片信息。借助多级尺度特征自适应关注(multi-level scale feature adaptive attention,MSFAA)模块,对不同关联尺度权重再分配,以适应ACL区域形状和位置表征多变的特性。结果在MRNet数据集的实验中,模型的AUC(area under curve)值达到98.4%,相较于其他的ACL损伤分类算法性能最优,准确性及特异性指标也分别达到了91.4%和97%的最优值。在kneeMRI数据集上进行5折交叉验证实验后,SSAMNet的AUC平均值最高,ROC(receiver operating characteristic curve)曲线始终保持着平稳的趋势。可视化结果也表明提出的方法可以有效关注病变区域。结论针对ACL损伤分类任务,所提模型性能优异且具有鲁棒性,存在临床应用价值。代码开源地址:https://github.com/wabk/SSAMNet。  
      关键词:磁共振成像(MRI);3D图像分类;切片特征聚合;自适应尺度注意力;二维卷积神经网络(2D CNN)   
      33
      |
      105
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 74864707 false
      更新时间:2025-04-16
    0