最新刊期

    2025 30 2

      综述

    • 面向深度学习的三维点云补全算法综述

      胡伏原, 李晨露, 周涛, 程洪福, 顾敏明
      2025, 30(2): 309-333. DOI: 10.11834/jig.240124
      面向深度学习的三维点云补全算法综述
      摘要:点云因其丰富的信息表达能力已成为三维视觉的主要表现形式,然而实际采集到的点云数据往往因各种因素导致稀疏或残缺,严重影响点云后续处理。点云补全算法旨在从残缺点云数据中重建完整点云模型,是3D重建、目标检测和形状分类等领域的重要研究基础。目前,基于深度学习的点云补全算法逐渐成为三维点云领域的研究热点,但补全任务中模型结构、精度和效率等挑战正阻碍点云补全算法的发展。本文对深度学习背景下的点云补全算法进行系统综述,首先根据网络输入模态将点云补全算法分为两大类,即基于单模态的方法以及基于多模态的方法。接着根据三维数据表征方式将基于单模态的方法分为三大类,即基于体素的方法、基于视图的方法以及基于点的方法,并对经典方法和最新方法进行系统的分析和总结,同时结合热点模型,如生成对抗网络(generative adversarial network, GAN)、Transformer模型等进一步分类对比,评述各类模型下点云补全算法的方法特点与网络性能。再对基于多模态的方法进行实际应用分析,结合扩散模型等方法进行算法性能对比。然后总结点云补全任务中常用的数据集及评价标准,分别以多种评价标准对比分析现有基于深度学习的点云补全算法在真实数据集与多种合成数据集上的性能表现。最后根据各分类的优缺点提出点云补全算法在深度学习领域的未来发展和研究趋势,为三维视觉领域的补全算法研究者提供重要参考价值。  
      关键词:点云补全;体素方法;多模态方法;Transformer模型;扩散模型   
      63
      |
      28
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452649 false
      更新时间:2025-02-14
    • 数字人风格化、多模态驱动与交互进展

      潘烨, 李韶旭, 谭帅, 韦俊杰, 翟广涛, 杨小康
      2025, 30(2): 334-360. DOI: 10.11834/jig.230639
      数字人风格化、多模态驱动与交互进展
      摘要:风格化数字人是在计算机图形学、视觉艺术和游戏设计等领域中迅速发展的一个领域。数字人物的设计和制作技术取得了显著的进步,使得数字人物能够具有更加逼真的外观和行为,同时也可以更好地适应各种艺术风格和情境。本文围绕风格化数字人任务,围绕数字人的风格化生成、多模态驱动与用户交互3个核心研究方向的发展现状、前沿动态、热点问题等进行系统性综述。针对数字人的风格化生成,从显式三维模型和隐式三维模型两种数字人的三维表达方式对于方法进行分类。显式三维数字人风格化以基于优化的方法、基于生成对抗网络的方法、基于引擎的方法为主要分析对象;隐式三维数字人风格化从通用隐式场景风格化方法以及针对人脸的隐式风格化进行回顾。针对数字人的驱动,根据驱动源的不同,从显式音频驱动、文本驱动和视频驱动3个方面进行回顾。根据驱动实现算法的不同,从基于中间变量、基于编码—解码结构等方面进行回顾。此外,算法还根据中间变量的不同可分为基于关键点、三维人脸和光流的方法。针对数字人的用户交互,目前主流的交互方式是语音交互,本文对语音交互模块从自动语音识别和文本转语音合成两方面进行了回顾,对于数字人的对话系统模块,从自然语言理解和自然语言生成等方面进行了回顾。在此基础上,展望了风格化数字人研究的未来发展趋势,为后续的相关研究提供参考。  
      关键词:风格化;数字人;人脸驱动;人机交互;三维建模;深度学习;神经网络   
      116
      |
      74
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 75674460 false
      更新时间:2025-02-14

      数据集

    • 基于高空无人机平台的多模态跟踪数据集

      肖云, 曹丹, 李成龙, 江波, 汤进
      2025, 30(2): 361-374. DOI: 10.11834/jig.240040
      基于高空无人机平台的多模态跟踪数据集
      摘要:目的无人机(unmanned aerial vehicle,UAV)因易操纵、灵活等特点,近年来在军事和民用等多个领域得到广泛应用。相对于低空无人机,高空无人机具有更广的视野,更强的隐蔽性,在情报侦察、灾害救援等方面具有更高的应用价值。然而,现有无人机多模态目标跟踪研究主要针对低空无人机,缺乏高空无人机多模态目标跟踪数据集,限制了该领域的研究和发展。方法构建了一个用于评估高空无人机多模态目标跟踪方法的数据集HiAl(high altitude UAV multi-modal tracking dataset),该数据集主要由搭载混合传感器的无人机在500 m高空拍摄的可见光—红外多模态视频构成,两种模态数据经过精确配准和帧级标注,可以较好地评估不同多模态目标跟踪方法在高空无人机平台下的性能表现。结果将主流的12种多模态跟踪方法在所提数据集与非高空无人机场景数据集上的表现进行了比较,方法TBSI(template-bridged search region interaction)在RGBT234数据集(RGB-thermal dataset)上PR(precision rate)值达到0.871,而在本文所提数据集上仅0.527,下降了39.5%,其SR(success rate)值由RGBT234数据集上的0.637,下降到本文所提数据集上的0.468,下降了26.5%。方法HMFT(hierarchical multi-modal fusion tracker)在所提数据集上的PR与RGBT234相比下降了23.6%,SR下降了14%。此外,利用HiAl数据集对6个方法进行重新训练实验,所有重训练方法的性能均得到提升。结论本文提出一个基于高空无人机平台的多模态目标跟踪数据集,旨在促进多模态目标跟踪在高空无人机上的应用研究。HiAl数据集的在线发布地址为:https://github.com/mmic-lcl/Datasets-and-benchmark-code/tree/main。  
      关键词:多模态目标跟踪;高空无人机;微小目标;高质量配准;数据集   
      20
      |
      16
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452735 false
      更新时间:2025-02-14
    • 面向高清人体图像生成的数据基准与模型框架

      徐正国, 普碧才, 秦建明, 项炎平, 彭振江, 宋纯锋
      2025, 30(2): 375-390. DOI: 10.11834/jig.240159
      面向高清人体图像生成的数据基准与模型框架
      摘要:目的姿态引导下的人物图像生成具有广泛的应用潜力,受到了广泛关注。低分辨率场景的姿态引导人物图像生成任务取得了很大成功。然而在高分辨率场景下,现有的人体姿态迁移数据集存在分辨率低或多样性差等问题,同时也缺乏相关高分辨率图像生成方法。针对这一问题,构建了具有多模态辅助数据的大规模高清人物图像数据集PersonHD。方法PersonHD数据集收集了包含100个不同人物的299 817幅图像。在提出的PersonHD基础上,基于现有数据集的公共设置,本文进一步构建了两个不同分辨率下的评测基准,并设计了一个实用的高分辨率人物图像生成框架,为评估最先进的姿态引导人物图像生成方法提供了一个新的平台。结果与现有数据集相比,PersonHD在更高的图像分辨率、更多样化的人物姿态和更大规模的样本方面具有显著的优势。基于PersonHD数据集,实验在两个不同分辨率的评测基准上系统地评估了当前具有代表性的姿态引导人物图像生成方法,并对本文提出框架各模块的有效性进行了系统验证。实验结果表明,该框架具有良好的效果。结论本文提出的高清人物图像生成基准数据集具有高分辨率数据规模大、多样性强等特点,有助于更为全面地评估姿态引导下的人物图像生成算法。本文的数据集和代码可在https://github.com/BraveGroup/PersonHD上获得。  
      关键词:人物图像合成;姿态引导迁移;高清数据集;低分辨率基准;高分辨率基准   
      25
      |
      14
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452516 false
      更新时间:2025-02-14

      图像处理和编码

    • 高斯—维纳表示下的稠密焦栈图生成方法

      王其腾, 李志龙, 丁新, 刘琼, 杨铀
      2025, 30(2): 391-405. DOI: 10.11834/jig.240249
      高斯—维纳表示下的稠密焦栈图生成方法
      摘要:目的焦栈图像能够扩展光学系统的景深,并为计算摄影、交互式和沉浸式媒体提供灵活的图像表达。然而,受限于光学系统的物理属性和拍摄对象的动态变化,人们往往只能拍摄稀疏的焦栈图像。因此,焦栈图像的稠密化成为当前需要解决的一个难题。为应对上述挑战,提出了一种高斯—维纳表示下的稠密焦栈图生成方法。方法焦栈图像被抽象为高斯—维纳表示,所提出的双向预测模型分别包含双向拟合模块和预测生成模块,在高斯—维纳表示模型的基础上构建双向拟合模型,求解双向预测参数并生成新的焦栈图像。首先,将稀疏焦栈序列的图像按照相同块大小进行分块,并基于此将相邻焦距、相同位置的块组合成块对,以块对为最小单元进行双向预测。其次,在双向预测模块中,块对将用于拟合出最佳双向拟合参数,并基于此求解出预测生成参数,生成新的焦栈图像块。最后,将所有预测生成得到的块进行拼接,得到新的焦栈图像。结果在11组稀疏焦栈图像序列上进行实验,所采用评价指标包括峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structure similarity index measure,SSIM)。11个序列生成结果的平均PSNR为40.861 dB,平均SSIM为0.976。相比于广义高斯和空间坐标两个对比方法,PSNR分别提升了6.503 dB和6.467 dB,SSIM分别提升了0.057和0.092。各序列均值PSNR和SSIM最少提升了3.474 dB和0.012。结论实验结果表明,所提出的双向预测方法可以较好地生成新的焦栈图像,能够在多种以景深为导向的视觉应用中发挥关键作用。  
      关键词:焦栈图像(FoSI);预测模型;高斯—维纳;表示模型;双向预测   
      16
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452258 false
      更新时间:2025-02-14

      图像分析和识别

    • 结合扩张卷积与多尺度融合的实时时空动作检测

      程勇, 高园元, 王军, 杨玲, 许小龙, 程遥, 张开华
      2025, 30(2): 406-420. DOI: 10.11834/jig.240098
      结合扩张卷积与多尺度融合的实时时空动作检测
      摘要:目的时空动作检测任务旨在预测视频片段中所有动作的时空位置及对应类别。然而,现有方法大多关注行动者的视觉和动作特征,忽视与行动者交互的全局上下文信息。针对当前方法的不足,提出一种结合扩张卷积与多尺度融合的高效时空动作检测模型(efficient action detector,EAD)。方法首先,利用轻量级双分支网络同时建模关键帧的静态信息和视频片段的动态时空信息。其次,利用分组思想构建轻量空间扩张增强模块提取全局性的上下文信息。然后,构建多种DO-Conv结构组成的多尺度特征融合单元,实现多尺度特征捕获与融合。最后,将不同层次的特征分别送入预测头中进行检测。结果实验在数据集UCF101-24和AVA(atomic visual actions)中进行,分析了EAD与现有算法之间的检测对比结果。在UCF101-24数据集上的帧平均准确度(frame-mAP)和视频平均准确度(video-mAP)分别为80.93%和50.41%,对于基线方法的漏检、错检现象有所改善;在AVA数据集上的frame-mAP达到15.92%,同时保持较低的计算开销。结论通过与基线及目前主流方法比较,EAD以较低的计算成本建模全局关键信息,提高了实时动作检测准确度。  
      关键词:深度学习;时空动作检测(STAD);双分支网络;扩张增强模块(DAM);多尺度融合   
      19
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452695 false
      更新时间:2025-02-14
    • 多样性负实例生成的跨域人脸伪造检测

      张晶, 许盼, 刘文君, 郭晓萱, 孙芳
      2025, 30(2): 421-434. DOI: 10.11834/jig.240160
      多样性负实例生成的跨域人脸伪造检测
      摘要:目的深度伪造检测(deepfake detection)通过训练复杂深度神经网络,挖掘更具辨别性的人脸图像表示,获得高精度的检测结果,其是一项确保人脸信息真实、可靠和安全的重要技术。然而,目前流行的模型存在过度依赖训练数据,使模型仅在相同域内表现出令人满意的检测性能,在跨领域场景中表现出较低泛化性,甚至使模型失效。因此,如何在有限的训练数据下实现跨域环境中的高效伪造人脸检测,成为亟待解决的问题。基于此,本文提出多样性负实例生成的跨域人脸伪造检测模型(negative instance generation-FFD, NIG-FFD)。方法首先,通过构建孪生自编码网络,获得标签一致的潜在多视图融合特征,引入对比约束提高难样本特征可判别性;其次,在高效训练的同时利用构造规则生成更具多样性的负实例融合特征,提高模型泛化性;最后,构建自适应重要性权值矩阵,避免因负实例生成导致类别分布不平衡使正类别样本欠学习。结果在两个流行的跨域数据集上验证本文模型的有效性,与其他先进方法相比,AUC(area under the receiver operating characteristic curve)值提升了10%。同时,在本域检测中ACC(accuracy score,)与AUC值相比其他方法均提升了近10%与5%。结论与对比方法相比,本文方法在跨域和本域的人脸伪造检测上都取得了优越的性能。本文所提的模型代码已开源至:https://github.com/LNNU-computer-research-526/NIG-FFD  
      关键词:深度伪造检测;跨域人脸伪造检测;多视图特征融合;特征生成;对比约束   
      8
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452483 false
      更新时间:2025-02-14
    • 头姿鲁棒的双一致性约束半监督表情识别

      王宇键, 何军, 张建勋, 孙仁浩, 刘学亮
      2025, 30(2): 435-450. DOI: 10.11834/jig.240205
      头姿鲁棒的双一致性约束半监督表情识别
      摘要:目的现有表情识别方法聚焦提升模型的整体识别准确率,对方法的头部姿态鲁棒性研究不充分。在实际应用中,人的头部姿态往往变化多样,影响表情识别效果,因此研究头部姿态对表情识别的影响,并提升模型在该方面的鲁棒性显得尤为重要。为此,在深入分析头部姿态对表情识别影响的基础上,提出一种能够基于无标签非正脸表情数据提升模型头部姿态鲁棒性的半监督表情识别方法。方法首先按头部姿态对典型表情识别数据集AffectNet重新划分,构建了AffectNet-Yaw数据集,支持在不同角度上进行模型精度测试,提升了模型对比公平性。其次,提出一种基于双一致性约束的半监督表情识别方法(dual-consistency semi-supervised learning for facial expression recognition,DCSSL),利用空间一致性模块对翻转前后人脸图像的类别激活一致性进行空间约束,使模型训练时更关注面部表情关键区域特征;利用语义一致性模块通过非对称数据增强和自学式学习方法不断地筛选高质量非正脸数据用于模型优化。在无需对非正脸表情数据人工标注的情况下,方法直接从有标签正脸数据和无标签非正脸数据中学习。最后,联合优化了交叉熵损失、空间一致性约束损失和语义一致性约束损失函数,以确保有监督学习和半监督学习之间的平衡。结果实验结果表明,头部姿态对自然场景表情识别有显著影响;提出AffectNet-Yaw具有更均衡的头部姿态分布,有效促进了对这种影响的全面评估;DCSSL方法结合空间一致性和语义一致性约束充分利用无标签非正脸表情数据,显著提高了模型在头部姿态变化下的鲁棒性,较MA-NET(multi-scale and local attention network)和EfficientFace全监督方法,平均表情识别精度分别提升了5.40%和17.01%。结论本文提出的双一致性半监督方法能充分利用正脸和非正脸数据,显著提升了模型在头部姿态变化下的表情识别精度;新数据集有效支撑了对头部姿态对表情识别影响的全面评估。  
      关键词:表情识别 (FER);头部姿态;双一致性约束;半监督学习;AffectNet;图像识别   
      13
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452259 false
      更新时间:2025-02-14
    • 基于归一化流的多模态多尺度工业场景缺陷检测

      曲海成, 林俊杰
      2025, 30(2): 451-466. DOI: 10.11834/jig.240183
      基于归一化流的多模态多尺度工业场景缺陷检测
      摘要:目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的多模态多尺度缺陷检测方法。方法首先,使用Vision Transformer和Point Transformer对RGB图像和3D点云两个模态的信息提取第1、3、11块的特征构建特征金字塔,保留低层次特征的空间信息助力缺陷定位任务,并提高模型对不同形状大小缺陷的鲁棒性;其次,为了简化多模态交互,使用过点特征对齐算法将3D点云特征对齐至RGB图像所在平面,通过构建对比学习矩阵的方式实现无监督多模态特征融合,促进不同模态之间信息的交互;此外,通过设计代理任务的方式将信息瓶颈机制扩展至无监督,并在尽可能保留原始信息的同时,减少噪声干扰得到更充分有力的多模态表示;最后,使用多尺度归一化流结构捕捉不同尺度的特征信息,实现不同尺度特征之间的交互。结果本文方法在MVTec-3D AD数据集上进行性能评估,实验结果显示Detection AUCROC(area under the curve of the receiver operating characteristic)指标达到93.3%,Segmentation AUPRO(area under the precision-recall overlap)指标达到96.1%,Segmentation AUCROC指标达到98.8%,优于大多数现有的多模态缺陷检测方法。结论本文方法对于不同形状大小、在RGB图像上感知度低的缺陷有较好的检测效果,不但减少了原始特征空间内噪声对多模态表示的影响,并且对不同形状大小的缺陷具有一定的泛化能力,较好地满足了现代工业对于缺陷检测的要求。  
      关键词:多模态多尺度工业场景;缺陷检测;无监督特征融合(UFF);代理任务;归一化流   
      13
      |
      18
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452445 false
      更新时间:2025-02-14
    • 融合注意力及增强感受野的桥隧表面病害深度网络检测

      黄志海, 罗海涛, 郭波
      2025, 30(2): 467-484. DOI: 10.11834/jig.240191
      融合注意力及增强感受野的桥隧表面病害深度网络检测
      摘要:目的在桥梁缆索和隧道环境中进行表面病害检测面临多重挑战:人工病害定位在复杂结构中的高投入成本;隧道内存在光照不足、病害区域的表面特征复杂、范围广阔和易遭遮挡等问题,这些因素使得传统图像处理技术在病害区域检测上表现出较低的抗干扰能力、识别精度不足和分割效果欠佳,鉴于此,提出一种基于融合注意力及增强感受野的深度网络模型。方法该模型使用融合Transformer注意力机制的骨干网络提取目标特征信息,获得更为密切联系的全局特征表示,以解决光照不足导致局部特征缺少的问题;引入空间序列缩减法降低骨干网络的参数量;改进使用具有串并联关系的空洞卷积池化金字塔(series-parallel atrous convolutional pyramid, SACP)模块,使得卷积感受野进一步扩大并且彼此融合,更好地感知完整的病害范围;解码阶段融合卷积注意力模块(concentration-based attention module, CBAM),提高浅层特征的有效边界特征权重。改进损失函数加快模型收敛速度。结果本文实地采集隧道内衬以及桥梁缆索病害部位图像构建数据集展开实验,结果表明:本文模型在隧道内衬病害提取上准确率(accuracy, Acc)达到94.4%,平均交并比(mean intersection over union, mIoU)达到78.14%,F1分数(F1-score)达到76.45%。在桥梁缆索病害提取上Acc达到97.15%,mIoU达到80.41%,F1分数达到77.92%。结论相较于主流的分割网络,本文模型在桥隧表面病害提取的精度上均有提升,具有更优秀的提取效果和抗干扰能力,能更好地满足复杂环境下病害检测工程需求。  
      关键词:深度学习;注意力机制;卷积感受野;图像分析;自动化病害检测;工程表面病害识别   
      10
      |
      11
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452260 false
      更新时间:2025-02-14

      图像理解和计算机视觉

    • 线性分解注意力的边缘端高效Transformer跟踪

      邱淼波, 高晋, 林述波, 李椋, 王刚, 胡卫明, 王以政
      2025, 30(2): 485-502. DOI: 10.11834/jig.240192
      线性分解注意力的边缘端高效Transformer跟踪
      摘要:目的将面向服务器端设计的跟踪算法迁移部署到边缘端能显著降低功耗,具有较高的实用价值。当前基于Transformer的跟踪算法具有明显的性能优势,然而部署在边缘端时,却可能产生较高的延迟。为了解决这个问题,提出了一种面向边缘端的线性分解注意力(linearly decomposed attention,LinDA)结构,可有效降低Transformer的计算量和推理延迟。方法LinDA将多头注意力近似表示成数据依赖部分和数据无关部分的和:对于数据依赖部分,用简单的向量元素间相乘及求和表示,避免了复杂的转置和矩阵乘法;对于数据无关部分,直接利用统计得到的注意力矩阵,然后加上一个可学习偏置向量。这种分解既具有全局注意力,又保持了数据依赖的优点。为了弥补线性分解带来的精度损失,还设计了一种知识蒸馏方案,它在原始的损失函数上增加了两部分蒸馏损失:1)将真实包围框替换成教师模型预测的包围框作为监督目标,称为硬标签知识蒸馏;2)将教师模型预测得分的相对大小作为监督目标,称为关系匹配知识蒸馏。基于LinDA结构进一步实现了一种面向边缘端的目标跟踪算法LinDATrack,并将其部署在国产边缘计算主机HS240上。结果在多个公开数据集上进行了评测。实验结果表明,该算法在该计算主机上可达到61.6帧/s的跟踪速度,功耗约79.5 W,功耗仅占服务器端的6.2%,同时其在LaSOT和LaSOT_ext上的成功率(success rate, SUC)相对于服务器端基线算法SwinTrack-T最多仅下降约1.8%。结论LinDATrack具有良好的速度和精度平衡,在边缘端具有较大的优势。  
      关键词:目标跟踪;边缘端;Transformer;多头注意力(MHA);知识蒸馏   
      14
      |
      12
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452256 false
      更新时间:2025-02-14
    • 双模态域无关提示引导的图像分类域适应

      许媛媛, 阚美娜, 山世光, 陈熙霖
      2025, 30(2): 503-517. DOI: 10.11834/jig.240119
      双模态域无关提示引导的图像分类域适应
      摘要:目的域适应技术旨在利用有标签的源域信息提升无标签目标域上的任务性能。近期,对比语言—图像预训练模型CLIP(contrastive language-image pre-training)展现出了强大的泛化能力,一些研究将其引入到域适应中,以提升模型在目标域上的泛化能力。然而,目前基于CLIP的域适应方法通常只调整文本模态的特征,保持视觉模态的特征不变,从而导致目标域的性能提升受限。为此,提出了双模态域无关提示引导的图像分类域适应方法DDAPs(dual-modality domain-agnostic prompts)。方法DDAPs引入了双模态提示学习,即通过文本和视觉提示学习微调文本特征和图像特征,协同处理域差异的问题。一方面,DDAPs致力于学习更具判别性的文本和图像特征,使模型在当前下游分类任务上的性能更好;另一方面,DDAPs通过消除源域和目标域之间的域差异,学习域不变的文本和图像特征,以提升模型在目标域上的性能。以上两个目标可通过添加域无关文本提示模块和域无关视觉提示模块,使用分类损失和对齐损失微调CLIP来实现。对于分类损失,DDAPs利用源域的标签和目标域的伪标签对样本进行分类;而对于对齐损失,DDAPs则通过最大均值差异损失(maximum mean discrepancy,MMD)来对齐源域和目标域的图像特征分布,从而消除图像特征的域差异。结果本方法既适用于单源域适应,也适用于多源域适应。对于单源域适应,本方法在Office-Home、VisDa-2017及Office-31这3个数据集上进行了实验,分别取得了87.1%、89.6%和91.6%的平均分类准确率,达到了当前最好的性能;对于多源域适应,本方法在Office-Home上进行了实验,取得了88.6%的平均分类准确率。同时,在Office-Home上进行了消融实验,验证了域无关文本提示模块和域无关视觉提示模块的有效性。结论DDAPs通过域无关的文本和视觉提示模块微调CLIP预训练模型,使模型学习源域与目标域之间域不变且判别性的特征,有效提升了模型在目标域上的性能表现。  
      关键词:单源域适应;多源域适应;域适应;迁移学习;双模态提示学习   
      7
      |
      9
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452651 false
      更新时间:2025-02-14
    • 不确定性域感知网络在少样本跨域图像分类中的研究

      余悦, 陈楠, 成科扬
      2025, 30(2): 518-532. DOI: 10.11834/jig.240142
      不确定性域感知网络在少样本跨域图像分类中的研究
      摘要:目的跨域少样本学习的主要挑战在于,很难将源域的知识推广到未知的目标域中。最近的一些少样本学习模型试图通过在元训练过程中诱导图像多样化来解决这一问题。然而,其中一些模拟未知领域任务的方法效果有限,因为它们不能有效地模拟领域偏移,其生成的内容变化范围狭窄,难以从域偏移中学习到有效的域不变知识。为了提升少样本模型的跨域泛化能力,提出了一个基于不确定性增强的域感知网络(uncertainty enhancement based domain-aware network,UEDA)。方法基于不确定性增强的域感知框架从特征通道视角探索和提取其中可用于缓解领域偏移的关键知识。首先提出一个不确定性特征增强方法,将特征的充分统计定值定义为服从高斯分布的概率表示,以源域充分统计量为分布中心建模不确定性分布。随后,从不确定性分布中生成有别于加性扰动的挑战性特征,从而挖掘不同域之间的共性知识;其次,提出了基于不确定性增强的域感知方法,将源特征和生成特征视为来自不同领域的信息,利用域鉴别器计算特征通道与领域信息的相关性,从而帮助模型挖掘领域之间的潜在关联并鉴别出其中的域因果信息用于学习。结果实验使用Mini-ImageNet、CUB(caltech-ucsd birds)、Plantae、EuroSAT(land use and land cover classification with sentinel-2)和 Cropdiseases共5个数据集评估所提出方法的跨域泛化表现。实验遵从纯源域泛化,其中在图神经网络(graph neural network,GNN)分类框架下,以Mini-ImageNet数据集作为源域,模型在后4个目标域的1-shot和5-shot设置下其平均精度分别为59.50%、47.48%、79.04%和75.08%,表明了所提出方法能有效提高基于源域的跨域图像分类能力。结论本文所提出的基于不确定性增强的域感知网络框架使得模型在训练阶段适应各种域偏移,并从中学习到有效的可泛化知识,从而提高在少样本条件下的跨域图像分类能力。  
      关键词:图像分类;跨域少样本图像分类;少样本学习(FSL);域泛化;深度学习   
      11
      |
      11
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452518 false
      更新时间:2025-02-14
    • 前景—背景语义解耦的图像修复

      叶学义, 睢明聪, 薛智权, 王佳欣, 陈华华
      2025, 30(2): 533-545. DOI: 10.11834/jig.240165
      前景—背景语义解耦的图像修复
      摘要:目的修复前后的图像在语义上保持一致是图像修复研究遵循的基本规则之一。然而,现有的图像修复方法往往忽视了图像前景与背景间的语义区别,从而在修复过程后二者相互影响导致边缘模糊和语义混杂等问题。针对此问题,提出了一种基于语义解耦前景背景的图像修复方法。方法此方法由3个步骤组成:语义修复、前景修复以及整体修复。初始阶段,对缺失的语义标签图进行修补;随后,采用经过修复的语义图将缺损图像的前景与背景分离,然后将损坏的前景区域输入到前景修复模块进行修复;最终,将修复后的前景区域嵌入到损失的图像中,输入到整体修复模块完成整体修复及前景背景融合。结果在公开的CelebA-HQ人脸数据集和Cityscapes街景数据集上与现有同类方法进行比较,本文方法在学习感知图像块相似度、峰值信噪比和结构相似性指标上表现更好;相较于对比方法的最优平均值,在CelebA-HQ数据集上,学习感知图像块相似度降低8.86%,结构相似性提高1.10%,且此方法峰值信噪比均值达到27.09 dB;在Cityscapes数据集上,学习感知图像块相似度降低4.62%,结构相似性提高0.45%,且此方法峰值信噪比均值达到27.31 dB。消融实验的数据表明了算法各个环节的必要性和有效性。结论该图像修复方法通过将前景背景的语义解耦,采用三段式算法流程递进完成图像修复,有效减少了语义混乱和边界模糊的影响,修复后生成的图像前景背景边界清晰,颜色风格和谐,语义连贯。  
      关键词:图像修复;语义修复;先验知识;前景—背景解耦:生成对抗网络(GAN)   
      5
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452460 false
      更新时间:2025-02-14
    • 触觉增强的图卷积点云超分网络

      张驰, 李剑, 王普正, 石键瀚, 王怀钰, 王琴
      2025, 30(2): 546-558. DOI: 10.11834/jig.230662
      触觉增强的图卷积点云超分网络
      摘要:目的随着三维扫描仪以及三维点云采集技术的飞速发展,三维点云在计算机视觉、机器人导引和工业设计等方面的应用越来越广泛。但是由于传感器分辨率、扫描时间以及扫描条件等限制,采集到的点云通常比较稀疏,无法满足许多应用任务的要求,因此人们一般采用上采样的方法获取稠密点云。但是由于原始稀疏点云缺失细节信息,对单一低分辨率点云进行上采样得到的结果往往较差。方法首次提出一种触觉增强的图卷积点云超分网络,主要思想是通过动态图卷积提取触觉特征并与低分辨率点云特征进行融合,以得到更加精确的高分辨率点云。由于触觉点云相比于低分辨率点云更加密集、精确,而且比较容易获取,因而本文将其与原始稀疏点云进行融合辅助后可以获得更加准确的局部特征,从而有效提升上采样的精度。结果首先构建用于点云超分的三维视触觉数据集(3D vision and touch, 3DVT),包含12 732个样本,其中70%用于训练新模型,30%用于测试;其次,采用倒角距离作为评价指标对数据集进行测试和验证。实验结果表明,不添加触觉辅助信息时,超分后点云的平均倒角距离为3.009 × 10-3,加入一次触觉信息融合后,平均倒角距离降低为1.931 × 10-3,加入两次触觉信息融合后,平均倒角距离进一步降低为1.916 × 10-3,验证了本文网络对点云超分效果的提升作用。同时,不同物体的可视化效果图也表明,加入触觉信息辅助后的上采样点云分布更加均匀、边缘更加平滑。此外,进一步的噪声实验显示,在触觉信息的辅助下,本文提出的网络对噪声具有更好的鲁棒性。在以3DVT数据集为基础的对比实验中,相比于现有最新算法,本文算法的平均倒角距离降低了19.22%,取得了更好的实验结果。结论通过使用本文提出的触觉增强的图卷积点云超分网络,借助动态图卷积提取触觉点云特征并融合低分点云,可以有效提高超分重构后高分辨率点云的质量,并且对周围噪声具有良好的鲁棒性。  
      关键词:点云超分;触觉点云;特征提取;特征融合;动态图卷积;多模态   
      39
      |
      71
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 69427830 false
      更新时间:2025-02-14

      计算机图形学

    • 利用本征属性分类的神经辐射场视角及语义一致性重建

      曾志鸿, 王宗继, 张源奔, 蔡伟南, 张利利, 郭岩, 刘俊义
      2025, 30(2): 559-574. DOI: 10.11834/jig.240140
      利用本征属性分类的神经辐射场视角及语义一致性重建
      摘要:目的基于神经辐射场(neural radiance field,NeRF)的3D场景重建与新视角生成工作正受到研究者的广泛重视,然而现有的神经辐射场方法通常对给定的场景进行高度专门化的表征,且将场景的几何与外观表征为“混合场”,这对场景的几何与外观编辑、场景泛化和3D资源的使用造成了不便。方法提出了一个学习对象本征属性的神经辐射场分类网络,通过图像增强的方式去除高光和阴影,并使用分类的方式实现颜色分解,即从现实场景中提取室内场景语义级目标的本征属性,在此基础上进行神经辐射场的重建。提出了前点优胜模块与颜色分类模块。前点优胜模块在体渲染阶段优化射线代表的本征属性,从而提升神经辐射场的语义一致性;颜色分类模块在辐射场重建阶段,通过全连接网络进行本征属性的分类优化,提高辐射场的语义及视角间一致性。两个主要模块共同作用,使重建的辐射场具备良好的针对外观的泛化能力,可支持场景重上色、重光照以及针对阴影与高光的编辑等任务。结果相比于现有的基于神经辐射场的学习进行本征分解的Intrinsic NeRF方法,在Replica数据集中的充分实验表明,在有限的GPU显存和运行时间下,重建的本征属性神经辐射场具备语义及视角间一致性。针对提升语义一致性的前点优胜模块,本文方法在基线模型Semantic NeRF的基础上提高了4.1%,在未加入该模块的基础上提高了 3.9%。针对提升本征分解语义及视角间一致性的颜色分类模块,本文方法在Intrinsic NeRF的本征分解工作基础上提升了10.2%,在未加入颜色分类层的基础上提升了1.7%。结论本文方法构建的本征属性神经辐射场具备语义及视角间一致性,可描述复杂场景几何关系且具备良好外观泛化性。在场景重上色、重光照、阴影与高光的编辑等任务中取得了视角间一致的逼真效果。  
      关键词:图像处理;场景重建;神经辐射场(NeRF);本征分解;场景编辑   
      8
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452589 false
      更新时间:2025-02-14

      医学图像处理

    • 分布感知均值教师网络的半监督医学影像分割

      赵小明, 石培炼, 王丹丹, 付有瑶, 张石清, 方江雄
      2025, 30(2): 575-588. DOI: 10.11834/jig.240208
      分布感知均值教师网络的半监督医学影像分割
      摘要:目的半监督方法旨在通过将未标记数据与标记数据的训练相结合,能够减少对标记数据的依赖,并取得较好的医学图像分割结果。然而,现有的半监督方法通常没有关注到标记数据和未标记数据之间的分布差异所带来的不利影响,尤其是在标记数据比例较低时,可能会严重影响模型的分割性能。方法提出一种采用分布感知的均值教师网络 (distribution-aware mean teacher network,DAMTN)用于半监督医学影像分割。该方法利用标记数据和未标记数据的分布信息来指导模型的学习,以便在训练阶段使模型对标记和未标记数据的分割结果的分布尽可能相似。该方法采用老师—学生的网络架构,并嵌入了不同的注意力模块,以及分布感知(distribution-aware,DA)模块、完整性监督(integrity supervision,IS)模块和不确定性最小化(uncertainty minimization,UM)模块。结果在MICCAI 2018(Medical Image Computing and Computer Assisted Intervention Society)左心房分割挑战LA(left atrium)数据集和胰腺CT(computed tomography)数据集上的实验结果表明,该方法使用左心房10%标记数据时,获得的Dice系数、Jaccard指数、HD(Hausdorff distance)和ASD(average surface distance)分别为88.55%、79.62%、9.07和3.08,与基于不确定性的协同均值教师(uncertainty-guided collaborative mean teacher,UCMT)相比,Dice系数和Jaccard指数分别提高了0.42%和0.44%;而使用左心房20%标记数据时,获得的Dice系数、Jaccard指数、HD距离和ASD距离分别为90.55%、82.82%、5.78和1.77,与UCMT相比,Dice系数和Jaccard指数分别提高了0.14%和0.28%。该方法使用胰腺CT 10%标记数据时,获得的Dice系数、Jaccard指数、HD和ASD分别为70.20%、56.36%、15.64和3.57,与基于不确定性的互补一致性学习(uncertainty-guided mutual consistency learning,UG-MCL)相比,Dice系数和Jaccard指数分别提高了0.94%和1.06%;而使用胰腺CT 20%标记数据时,获得的Dice系数、Jaccard指数、HD距离和ASD距离分别为77.89%、64.92%、7.97和1.65,与UG-MCL相比,Dice系数和Jaccard指数分别提高了2.77%和3.34%。在ACDC(automated cardiac diagnosis challenge)数据集上的实验结果也表明了该方法的优越性。结论提出的方法利用标记数据与未标记数据的分布差异信息,有效提升了半监督医学影像分割性能。尤其在使用较低数量的标记数据时,该方法的分割性能明显优于其他使用的半监督方法。  
      关键词:分布感知(DA);均值教师;半监督;医学影像分割;注意力   
      12
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452257 false
      更新时间:2025-02-14
    • 结合边界自知识蒸馏的结肠镜息肉图像分割方法

      孟祥福, 张智超, 俞纯林, 张霄雁
      2025, 30(2): 589-600. DOI: 10.11834/jig.240175
      结合边界自知识蒸馏的结肠镜息肉图像分割方法
      摘要:目的结肠镜技术在结肠息肉的早期检测中至关重要,但其依赖于操作员的专业技能和主观判断,因此存在局限性。现有的结肠息肉图像分割方法通常采用额外层和显式扩展网络结构,导致模型效率较低。此外,由于息肉与其周围粘膜之间的边界不清晰,现有模型对于息肉边界的分割效果并不理想。方法提出了一种端到端的自知识蒸馏框架,专门用于结肠息肉图像分割。该框架将边界分割网络和息肉分割网络整合到一个统一的知识蒸馏框架中,以相互增强两个网络的性能。该框架采用专注于边界分割的模型作为教师网络,将息肉分割模型作为学生网络,两者共享一个特征提取模块,以促进更有效的知识传递。设计了一种反向特征融合结构,通过上采样和矩阵乘法聚合编码器深层特征,并利用反向浅层特征作为辅助信息,从而获得分割掩膜的全局映射。结果通过在CVC-ClinicDB(colonoscopy videos challenge-clinicdatabase)、CVC-ColonDB(colonoscopy videos challenge-colondatabase)、Kvasir以及HAM10000(human against machine with 10000 training images) 4个数据集上开展实验,与当前11种先进方法PraNet(parallel reverse attention network)和Polyp2Former(boundary guided network based on transformer for polyp segmentation)等进行比较,实验结果表明本文模型表现最佳,Dice相似性系数(Dice similarity coefficient, DSC)和平均交并比(mean intersection over union,mIoU)指标分别比现有最优模型提升了0.45%和0.68%。结论本文模型适用于各种尺寸和形状的息肉分割,实现了准确的边界提取,并且具有推广到其他医学图像分割任务的潜力。本文代码可在https://github.com/xiaoxiaotuo/BA-KD下载。  
      关键词:息肉分割;医学图像处理;深度学习;知识蒸馏;边界分割   
      11
      |
      13
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452447 false
      更新时间:2025-02-14
    • X线片椎骨语义边缘引导的2D/3D配准方法

      沈傲, 沈燕进, 蒋俊锋, 陈正鸣, 黄瑞, 何坤金, 陈杰
      2025, 30(2): 601-614. DOI: 10.11834/jig.240001
      X线片椎骨语义边缘引导的2D/3D配准方法
      摘要:目的基于影像引导的脊柱手术机器人系统中,2D/3D配准指的是将术前计算机断层扫描影像与术中X线片配准,用于实现手术机器人对于人体组织的精准空间定位。常见做法是先用标志点进行粗配准,再用灰度法修正位姿。标志点配准问题在于标志点识别精度不高且识别效率较低,灰度法的捕获范围小且对初始位姿敏感。由于脊柱关节边缘重叠且术中X线片图像质量较低,故利用物理边缘作为特征进行2D/3D配准精度不高。因此,提出一种基于语义边缘提取的2D/3D配准方法。方法首先,提取X线片中成像清晰的椎弓根边缘和椎体两侧边缘作为语义特征进行2D/3D配准;同时,面向边缘提取任务,研究一种间距约束的高效“U”形变形器网络,该深度学习网络提高分割效率的同时,保持了边缘分割的准确性,并加入了椎骨间距约束损失的先验信息,进一步提升了多椎骨语义边缘提取的精度。结果模拟数据与真实数据上评估结果表明,本文方法在配准精度与效率方面均优于现有方法;位姿修正后,本文方法平移误差小于1 mm,旋转误差小于0.1°,配准耗时在5 s左右,能较好满足实际临床需求。结论本文提出的基于椎骨语义边缘的2D/3D粗配准方法有效缩小了后续精配准过程的搜索空间,从而提高了配准精度。在边缘提取方面,将哈达玛乘积代替卷积操作的方式以及加入椎骨间距约束损失,提高了语义边缘的提取效率和精度。因此,本文方法能够较好满足2D/3D配准的精度与实时性需求。  
      关键词:2D/3D配准;脊柱手术机器人;椎骨;语义边缘提取;视觉变形器网络(ViT)   
      7
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82452737 false
      更新时间:2025-02-14
    0