最新刊期

  • 丁欣楠, 叶楠, 段鑫, 王科俊

    DOI:10.11834/jig.240710
    img
    摘要:目的作为一种生物特征,步态可以通过行走时的步态习惯来区分目标身份。但由于视频数据的复杂性,隐藏在连续帧中的不受外部协变量干扰的运动状态很难被直接捕获。针对该问题,本文提出了一种基于局部时空卷积的步态识别方法来自主地学习步态运动模式。方法受分块思想的启发,提出了全局双向空间池化方法使步态张量降维,以局部条带为基本单位表示步态特征空间上的细节。并且设计了局部时空卷积层,使时域和空间域上的信息共同参与卷积运算,从而让二维卷积层能够自适应地学习基于条带的步态运动。并且通过非对称卷积分别关注时域、空间域和时空域,从而能够更好地提取步态时空特征。另外,提出了基于局部的时空池化方法,能够融合多帧中最有区分性的局部步态时空表征,以生成更具身份判别性的步态特征。结果所提出的方法在两个基准的公共数据集上的实验均取得了最高识别精度,在CASIA-B数据集上的三种行走条件下分别达到了97.3%、93.7%和83.8%的平均识别正确率,在OU-MVLP上取得了85.8%的平均识别结果,证明了所提方法的优越性。结论本文所提出的局部时空卷积网络的方法,有较好的时空域特征学习能力,能够提升步态识别准确率。  
    关键词:步态识别;时空特征;卷积神经网络;局部特征;深度学习   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 81602241 false
    更新时间:2025-01-23
  • 徐胜军, 刘雨芮, 刘二虎, 刘俊, 史亚, 李小晗

    DOI:10.11834/jig.240629
    img
    摘要:目的针对遥感图像分割的区域连续性差、边界消失和尺度变化大等导致建筑物分割精度低的问题,提出了一种基于全局感知与细节增强的非对称遥感建筑物分割网络(Global Perception and Detail Enhancement Asymmetric-UNet,GPDEA-UNet)。方法该网络在U-Net网络基础上,首先构建了一个基于选择性状态空间的特征编码器模块,以视觉状态空间(Visual state space,VSS)作为基础单元,结合动态卷积分解(Dynamic convolution decomposition,DCD)捕捉遥感图像中的复杂特征和上下文信息;其次通过引入多尺度双交叉融合注意力模块(Multi-scale dual cross-attention,MDCA)解决多尺度编码器特征间的通道与空间依赖性问题,并缩小编解码器特征之间的语义差距;最后设计了一个细节增强解码器模块,使用DCD与级联上采样模块(Cascade upsampling,CU)恢复更丰富的语义信息,保留特征细节与语义完整,最终确保分割结果的精确性与细腻度。结果实验在WHU Building Dataset和Massachusetts Building Dataset数据集上与多种方法进行了比较,实验结果表明,所提出的网络GPDEA-UNet在WHU Building Dataset数据集上IoU、Precision、Recall、F1-score分别可达91.60%,95.36%,95.89%,95.62%;在Massachusetts Building Dataset数据集上IoU、Precision、Recall、F1-score分别可达到72.51%,79.44%,86.81%,82.53%。结论所提出的基于全局感知与细节增强的非对称遥感建筑物分割网络,可以有效提高遥感影像建筑物的分割精度。  
    关键词:遥感图像;建筑物分割;视觉状态空间;动态卷积分解;交叉注意力;细节增强   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 81602162 false
    更新时间:2025-01-23
  • 杨小龙, 张战成, 徐少康, 张宝成, 罗晓清, 胡伏原

    DOI:10.11834/jig.240502
    img
    摘要:目的由于患者姿态的变换,术中完整脊柱图像无法与术前CT形成刚体位置对应,现有的医学图像配准算法在处理脊柱的复杂结构时,常面临配准精度低和鲁棒性不足的问题。针对该问题,提出融合脊柱局部细节特征和全局位置特征的单椎体2D/3D刚性配准网络。方法卷积神经网络通过多组可学习的卷积核增强模型学习椎体的形状和边界等局部结构的能力,Transformer通过自注意力机制能够有效捕捉图像间全局依赖关系并分离出椎体的关键特征,结合两种网络特点,提出双分支网络有效地提取单椎体图像的局部、全局特征。然后设计基于通道、空间注意力的特征融合模块使网络更好地捕捉椎体信息,并通过多尺度特征逐层优化特征表示,提高网络在不同层次上的感知能力。最后,设计了辅助配准头,利用多层次的空间特征预测姿态参数,使网络在训练过程中逐层优化姿态的预测,从而提高最终的配准精度。结果在Verse数据集上与几种主流的基于迭代优化和基于深度学习的配准方法进行对比实验,本文模型在单椎体配准任务上表现出更高的精度,平均目标配准误差(mean target registration error,mTRE)为1.40 mm,6自由度姿态参数的平均绝对误差(mean absolute error,MAE)为0.008。结论本文提出的配准方法能够获取脊柱局部细节信息以及全局位置信息,从而提高配准精度;且基于多层次特征实现的辅助配准头能够增强监督信息,提高配准模型的稳定性,适用于单椎体的2D/3D医学图像配准任务。源代码可在https://github.com/xlyang2001/Registration获取。  
    关键词:医学图像;2D/3D配准;单椎体;深度学习;特征融合   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 81601326 false
    更新时间:2025-01-23
  • 孙伟, 管菲, 张小瑞, 沈欣怡

    DOI:10.11834/jig.240646
    img
    摘要:目的雾天环境下,船舶图像往往面临特征模糊和细节丢失,给船舶的准确识别带来了巨大挑战。针对此问题,提出了多元特征级联增强和跨层自适应融合的雾天船舶重识别网络。方法针对雾天图像船舶特征模糊、难以识别的挑战,设计了多元特征级联增强模块,通过提取船舶全局和局部的多元特征,并融入密集连接进一步级联增强这些特征的清晰度,有效减轻雾对图像质量的影响,进而增强船舶的整体轮廓和细节结构的呈现,为后续重识别任务提供更为丰富且可辨识的特征信息。然后,进一步设计了跨层自适应融合模块,通过自适应权重来预测ResNet50网络浅层和深层特征的重要性,并将这些特征进行跨层融合,不仅有效利用特征增强后的船舶信息,还全面捕捉从浅层细节到深层语义的船舶特征信息,增强雾天船舶重识别的鲁棒性和准确性。此外,新构建了一个专门用于雾天船舶重识别的数据集Warships-Foggy,通过调整大气散射模型中的参数合成多种雾况的船舶图像,以模拟真实的雾天场景,有效解决雾天船舶重识别模型难以训练和评估的挑战。结果在数据集Warships-Foggy上将本文提出的方法和已有的方法进行了对比实验和消融实验,以评估所提出的DFNet网络模型的性能。实验结果显示,本文所提出的方法的平均精度均值(mean average precision, mAP)为92.39%,累计匹配曲线(Cumulative matching characteristic,CMC)在排名前1、5、10的结果分别为94.35%、97.58%和98.39%,表明所提出的网络模型提高了船舶匹配的准确率,表现出了优异的性能。结论本文所提出的网络模型,首次将图像特征增强和船舶重识别两个任务相结合,实现了高精度的船舶重识别。  
    关键词:雾天船舶重识别(ReID);特征增强;自适应权值;特征融合;ResNet50   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 81601291 false
    更新时间:2025-01-23
  • 姜文涛, 由卓丞, 袁姮

    DOI:10.11834/jig.240746
    img
    摘要:目的针对图像分类任务中对于细粒度特征提取困难,同时背景噪声和不相关区域影响网络对目标特征学习的问题,本文提出随机空洞卷积的图像分类网络(image classification network with random dilated convolution,RDCNet)。方法RDCNet网络以ResNet-34为基线网络。首先,提出多分支随机空洞卷积(multi-branch random dilated convolution,MRDC)模块,通过多个分支的卷积操作和随机膨胀卷积核的设计,实现了从不同尺度和感受野上对细粒度特征的有效捕捉。通过引入细粒度特征增强(fine-grained feature enhancement,FGFE)模块,实现对全局信息的学习和局部特征的增强,提升了网络局部特征提取和全局上下文理解能力。同时引入随机掩码机制动态地遮蔽部分输入特征和卷积核权重,不仅可以通过多样化的特征组合来学习更加健壮和鲁棒性的表示,还能够有效减少过拟合,提升对噪声和不相关区域的适应能力。最后,提出上下文激励(context excitation,CE)模块,通过引入上下文信息并动态调整特征通道的权重,增强网络对关键特征的关注能力,抑制背景噪声的干扰,提升了特征的表达能力。结果本文方法在CIFAR-10、CIFAR100、SVHN、Imagenette、Imagewoof数据集上均有良好的分类准确率,相比于性能第2的模型,分类准确率分别提高了0.02%、1.12%、0.32%、4.73%、3.56%,实验结果证明RDCNet具有较高的分类性能。结论随机空洞卷积的图像分类网络具有更强的细粒度特征敏感度,能够在多尺度和上下文中提取丰富的特征信息,较好地关注关键特征,对复杂背景下目标具有更优秀的辨识能力,从而在分类任务中表现出优异的分类性能。  
    关键词:图像分类;残差网络;空洞卷积;随机空洞卷积;细粒度特征;随机掩码机制   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 81601203 false
    更新时间:2025-01-23
  • 陈晓雷, 杜泽龙, 张学功, 王兴

    DOI:10.11834/jig.240592
    img
    摘要:目的现有360°全景图像显著目标检测方法一定程度上解决了360°全景图像投影后的几何畸变问题,但是这些方法面对复杂场景或是前景与背景对比度较低的场景时,容易受到背景干扰,导致检测效果不佳。为了同时解决几何畸变和背景干扰,本文提出了一种畸变自适应与位置感知的360°全景图像显著目标检测网络(distortion-adaptive and position-aware network,DPNet)。方法提出了两个对畸变和位置敏感的自适应检测模块:畸变自适应模块(distortion-adaptive module,DAM)和位置感知模块(position-aware module,PAM)。它们可以帮助模型根据等矩形投影的特点和具体图像来决定该关注图像的哪些区域。在此基础上,本文进一步提出了一个显著信息增强模块(salient information enhancement module,SIEM),该模块用高级特征来指导低级特征,过滤其中的非显著信息,防止背景干扰对360°显著目标检测效果的影响。结果实验在2个公开数据集(360-SOD,360-SSOD)上与最新的13种方法进行了客观指标和主观结果的比较,在8个评价指标上的综合性能优于最新的13种方法。并且本文还设置了泛化性实验,采用交叉验证的方式证明了本文模型优秀的泛化性能。结论本文所提出的360°全景图像显著目标检测模型DPNet,同时考虑了360°全景图像投影后的几何畸变问题和复杂场景下的背景干扰问题,能够有效地、完全自适应地检测显著目标。  
    关键词:360°全景图像;显著目标检测;畸变自适应;位置感知;抗背景干扰   
    26
    |
    12
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601568 false
    更新时间:2024-12-30
  • 洪雨辰, 吕游伟, 万人杰, 李思, 施柏鑫

    DOI:10.11834/jig.240537
    img
    摘要:随着智能手机摄影的普及,图像数据采集变得极为便捷,但在透过透明介质例如玻璃窗进行拍摄时,玻璃反射的存在严重影响了图像质量,进而干扰下游计算机视觉任务的性能。反射消除作为计算摄像学与计算机视觉领域的重要研究问题,旨在从带反射图像中消除反射干扰以恢复清晰的背景图像。随着深度学习在计算摄像问题中的广泛应用,反射消除领域经历了快速发展,鉴于此,本文旨在围绕近年来基于深度学习的反射消除研究进展进行深入探讨。首先,从混合图像成像模型入手,分析玻璃材质特性以及相机特性对反射图像和背景图像性质的影响。其次,从输入图像的角度,详细汇总了现有的反射消除真实数据集,并对其应用场景、具体用途、数据规模和分辨率等属性进行了统计分析。接着,从深度学习模型的视角,系统性对比了反射消除网络的设计范式、损失函数和评估指标。此外,根据反射消除方法所依赖的分层依据和辅助信息,将现有方法归纳为基于图像特征、文本特征、几何特性和光照特性四大类,并进行了简明的描述和分析。最后,通过讨论反射消除领域内尚未解决的关键挑战,对该领域进行总结与展望。本文旨在提供一个关于反射消除问题的系统研究视角,帮助研究者建立对反射消除技术的深刻认识,为未来研究提供有价值的参考。  
    关键词:计算摄像学;图像复原;反射消除;卷积神经网络;扩散模型;感知质量   
    23
    |
    17
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601498 false
    更新时间:2024-12-30
  • 邱云飞, 刘则延, 王茂华

    DOI:10.11834/jig.240618
    img
    摘要:目的针对Transformer在图像去模糊过程中难以精确恢复图像细节的问题。提出了一种结合Mamba模型与蛇形卷积技术的图像去模糊网络(Mamba Snake Convolution Network,MSNet)。方法首先,结合Mamba框架与蛇形卷积,提出蛇形状态空间模块(Snake State-Space Module,SSSM)。SSSM通过调整卷积核的形状和路径,动态适应图像局部特征并调整卷积方向,以对齐不同的模糊条纹模式。其次,使用多方向扫描模块(Direction scan module,DSM)进行多个方向的扫描,捕捉图像中的长期依赖。再利用离散状态空间方程合并多方向的结构信息,增强模型对全局结构的捕捉能力。最后,引入蛇形通道注意力(Snake Channel Attention,SCA),利用门控设计筛选和调整模糊信息的权重,确保在去除模糊的同时保留关键细节。结果实验在GoPro和HIDE数据集上,与主流的CNN(convolutional neural networks)和Transformer去模糊方法相比,MSNet的峰值信噪比(peak signal to noise ratio,PSNR)分别提升了1.2和1.9个百分点,结构相似性(structural similarity,SSIM)分别提升了0.6和0.7个百分点。结论本文所提出的方法可以有效去除图像模糊并恢复细节。  
    关键词:图像去模糊;Mamba模型;方向扫描;蛇形卷积;蛇形通道注意力   
    50
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601420 false
    更新时间:2024-12-30
  • 冯明涛, 沈军豪, 武子杰, 彭伟星, 钟杭, 郭裕兰, 舒祥波, 张辉, 董伟生, 王耀南

    DOI:10.11834/jig.240588
    img
    摘要:三维(3D)视觉感知和理解在机器人导航、自动驾驶以及智能人机交互等众多领域广泛应用,是计算机视觉领域中备受瞩目的研究方向。随着多模态大模型的发展,它们与3D视觉数据的融合取得了快速进展,为理解和与3D物理世界交互提供了前所未有的能力,并展现了独特优势,如上下文学习、逐步推理、开放词汇能力和丰富的世界知识。本文涵盖了3D视觉数据基本表示,从点云到3D高斯泼溅;梳理了主流多模态大模型的发展脉络;对联合多模态大模型的3D视觉数据表征方法做了详细的归纳总结;梳理了基于多模态大模型的3D理解任务,如3D生成与重建、3D目标检测、3D语义分割、3D场景描述、语言引导的3D目标定位和3D场景问答等;以及基于多模态大模型的机器人具身智能系统中空间理解能力提升;最后梳理了核心数据集和对未来前景的深刻讨论,以期促进该领域的深入研究与广泛应用。本文提出的全面分析揭示了本领域的重大进展,强调了利用多模态大模型进行3D视觉理解的潜力和必要性。因此,本综述目标是为未来的研究绘制一条路线,探索和扩展多模态大模型在理解和与复杂3D世界的互动能力,为空间智能领域的进一步发展铺平道路。  
    关键词:三维视觉;多模态大模型;三维视觉表征;三维视觉生成;三维重建;机器人三维视觉;三维场景理解   
    18
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79601334 false
    更新时间:2024-12-30
  • 徐啸林, 郑文明, 连海伦, 李溯南, 刘佳腾, 刘安邦, 路成, 宗源, 梁宗保

    DOI:10.11834/jig.240571
    img
    摘要:目的谎言检测通过分析个体的生理行为特征来识别其是否说谎,在刑侦和安全审查等领域具有重要应用。然而,目前缺乏公开的中文测谎数据集,考虑到语言和文化方面的差异,基于英文数据集研发的算法可能难以适用于中文语境。此外,现有数据集样本规模有限,在激发被试说谎动机方面存在不足。针对这些问题,构建了首个公开的中文多模态测谎数据集(Southeast University multimodal lie detection dataset,SEUMLD)。方法实验基于犯罪知识测试范式,设计了模拟犯罪和模拟审讯等流程以激发被试的说谎动机。通过记录被试在模拟审讯过程中的多模态信号,SEUMLD包含了长期生活在中文语境下的76位被试的视频、音频以及心电三种模态数据,共计3224段对话。该数据集不仅提供了用于判断被试是否说谎的长会话标注(粗粒度标注),还提供了每段长会话细化分割的精准标注(细粒度标注)。基于SEUMLD,设计了跨语种实验以验证语言文化差异对说谎行为的影响;通过迁移学习实验评估其在提升模型泛化能力上的性能;最后基于经典谎言检测方法对SEUMLD进行了基准实验。结果跨语种测谎实验在中英文语境下表现出了显著差异。迁移学习实验验证了SEUMLD在提升模型泛化能力上的优异表现。基准实验结果显示,基于单模态的粗粒度和细粒度测谎的最佳未加权平均召回率(unweighted average recall,UAR)识别结果分别为0.7576和0.7096;融合了多模态信息后的测谎性能达到最佳,在粗粒度检测和细粒度测谎的识别结果分别为0.8083和0.7379。结论SEUMLD为研究中文语境下的多模态测谎提供了重要的数据来源,对未来研究中文母语者的说谎模式具有重要意义。数据集开源地址:https://aip.seu.edu.cn/2024/1219/c54084a515309/page.htm。  
    关键词:谎言检测;中文谎言检测;多模态;数据集;基准   
    12
    |
    12
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79600222 false
    更新时间:2024-12-30
  • 肖杰, 范子豪, 李东, 傅雪阳, 查正军

    DOI:10.11834/jig.240517
    img
    摘要:目的图像复原是计算机视觉领域的经典研究问题。选择性状态空间模型(Selective State Space Models, SSMs)因其高效的序列建模能力,被广泛应用于各类图像复原任务。另一方面,非局部图像块之间存在依赖关系,能够辅助提升复原性能。然而,传统SSMs采用确定性的令牌(Token)扫描方式,仅能提取令牌序列的单向依赖关系。此时,令牌间的关系建模因在序列中的先后顺序受到因果性制约,这与图像块之间的非因果相互关系形成冲突,限制了复原性能的进一步提升。针对此问题,提出一种面向图像复原的非因果选择性状态空间模型,旨在赋予SSMs建模令牌之间非因果依赖关系的能力。方法为解决SSMs在因果性建模与图像内容非因果关系之间的矛盾,提出了随机扫描策略,突破了传统扫描方式在因果性和空间限制上的局限,实现了令牌序列之间的非因果建模。具体而言,构建了随机重排和逆重排函数,实现了非固定次序下的令牌扫描,有效建模了不同令牌之间的非因果依赖关系。此外,针对图像退化干扰存在空间尺度变化和形态结构复杂的特点,融合多尺度先验构建了具有局部与全局信息互补性的非因果Mamba模型(Non-Causal Mamba, NCMamba),实现了对于各类图像复原任务的有效适配。结果实验分别在图像去噪、去模糊和去阴影任务上进行,验证了所提非因果建模和局部-全局互补策略的有效性。例如,与现有方法相比,所提模型在图像去阴影数据集SRD上的峰值信噪比提升了0.86 dB。结论面向图像复原任务,构建了非因果选择性状态空间模型,建模了令牌之间的非因果依赖关系,实现了局部与全局信息的有效互补,显著提升了复原性能。实验结果表明,所提方法在主客观评价指标上均取得优异性能,为图像复原领域提供了新的解决方案。  
    关键词:图像复原;状态选择模型;非因果建模;多尺度建模;图像处理   
    12
    |
    12
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79600143 false
    更新时间:2024-12-30
  • 张荣国, 郑晓鸽, 王丽芳, 胡静, 刘小君

    DOI:10.11834/jig.240243
    img
    摘要:目的视频显著目标检测的目的是识别和突出显示视频中的重要对象或区域。现有的方法在挖掘边界线索和时空特征之间的相关性方面存在不足,并且在特征聚合过程中未能充分考虑相关的上下文信息,导致检测结果不够精确。因此提出了多特征聚合的边界引导网络,进行显著目标边界信息和显著目标时空信息之间的互补协作。方法首先,提取视频帧显著目标的空间和运动特征,在不同分辨率下将显著目标边界特征与显著目标时空特征耦合,突出运动目标边界的特征,更准确地定位视频显著目标;其次,采用了多层特征注意聚合模块以提高不同特征的表征能力,使得各相异特征得以被充分利用;同时在训练阶段采用混合损失来帮助网络学习,以更加准确地分割出运动目标显著的边界区域,获得期望的显著目标。结果实验在4个数据集上与现有的5种方法进行了比较,所提方法在4个数据集上的F-measure值均优于对比方法。在DAVIS(densely annotated video segmentation)数据集上,与性能最优的模型相比F-measure值提高了0.2%,S-measure值略低于最优值0.7%;在FBMS(freiburg-berkeley motion segmentation)数据集上,F-measure值比次优值提高了0.9%;在ViSal数据集上,MAE(mean absolute error)值仅低于最优方法STVS 0.1%,F-measure值比STVS提高了0.2%;在MCL数据集上,所提方法实现了最优的MAE值2.2%,S-measure值和F-measure值比次优方法SSAV(saliency-shift aware VSOD)分别提高了1.6%和0.6%。结论实验表明,提出的方法能够有效提升检测出的视频显著目标的边界质量。  
    关键词:视频图像;显著性目标检测;深度学习;边界引导;多尺度特征;特征聚合   
    21
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110121 false
    更新时间:2024-12-23
  • 顾思远, 高曙

    DOI:10.11834/jig.240272
    img
    摘要:目的从单个RGB图像进行联合手物姿态估计极具挑战性,因为当手与物体交互时,经常会发生严重的遮挡。此外,现有的手物特征提取网络通常使用特征金字塔网络(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丢失的问题。针对以上问题,提出手物特征增强互补模型(hand-object feature enhancement complementary,HOFEC)。方法1)针对通道信息丢失问题,设计基于通道注意力引导的特征金字塔网络(channel attention-guided feature pyramid network,CAG-FPN),将通道注意力机制引入FPN,使得模型在融合多尺度特征过程中更好地关注输入数据中不同通道之间的关系和重要性,并结合基于局部共享的双流网络ResNet-50(50-layer residual network)共同构建手物特征提取网络,提高模型的特征提取能力。2)针对手物交互时相互遮挡问题,设计空间注意力模块,分别增强手物特征,同时提取手物遮挡区域信息,并进一步设计交叉注意力模块,进行手物特征互补,从而充分利用手部区域和物体区域遮挡信息,实现特征增强与互补。3)通过手部解码器与物体解码器分别恢复手部姿态与物体姿态。结果在HO3D与Dex-ycb数据集上与SOTA模型相比,本文方法在手部姿态估计任务与物体姿态估计任务上均取得了有竞争力的效果。在HO3D数据集上,与最近的10种模型进行了比较,手部姿态估计指标PAMPJPE与PAMPVPE均比次优的HandOccNet提高了0.1mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高了2.1%;在Dex-ycb数据集上,与最近的7种模型进行了比较,手部姿态估计指标MPJPE与PAMPJPE分别比次优的HFL-Net提高了0.2mm、0.1mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高了6.4%。结论本文提出的HOFEC模型能够在手物交互场景下同时准确地估计手部姿态与物体姿态(本文方法代码网址:https://github.com/rookiiiie/HOFEC)。  
    关键词:手物姿态估计;特征提取网络;特征增强;特征互补;注意力机制   
    17
    |
    10
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110085 false
    更新时间:2024-12-23
  • 肖振久, 李士博, 曲海成, 李富坤

    DOI:10.11834/jig.240361
    img
    摘要:目的针对遥感图像(remote sensing image,RSI)检测中目标尺寸小且密集、尺度变化大,尤其在复杂背景信息下容易出现漏检和误检问题,提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,以提升遥感图像的检测精度。方法首先,设计自适应大感受野机制(adaptive large receptive field,ALRF)用于特征提取。该机制通过级联不同扩张率的深度卷积进行分层特征提取,并利用通道和空间注意力对提取的特征进行通道加权和空间融合,使模型能够自适应地调整感受野大小,从而实现遥感图像上下文信息的有效利用。其次,为解决颈部网络特征融合过程中小目标语义信息丢失问题,设计多尺度特征序列融合架构(multi-scale feature fusion,MFF)。该架构通过构建多尺度特征序列,并结合浅层语义特征信息,实现复杂背景下多尺度全局信息的有效融合,从而减轻深层网络中特征模糊性对小目标局部细节捕捉的影响。最后,因传统交并比(IoU,intersection over union)对小目标位置偏差过于敏感,引入归一化Wasserstein距离(normalized Wasserstein distance,NWD)。NWD将边界框建模为二维高斯分布,计算这些分布间的Wasserstein距离来衡量边界框的相似性,从而降低小目标位置偏差敏感性。结果在NWPU VHR-10(Northwestern Polytechnical University very high resolution 10 dataset)和DIOR(dataset for object detection in aerial images)数据集上与10种方法进行综合比较,结果表明,提出的方法优于对比方法,其中,相较于基准模型YOLOv8n,平均精度(average precision,AP)分别达到93.15%和80.89%,提升5.48%和2.97%,同时参数量下降6.96%。结论提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,该方法提升目标的定位能力,改善复杂背景下遥感图像检测中的漏检和误检问题。  
    关键词:遥感图像;目标检测;感受野;特征融合;归一化Wasserstein距离   
    26
    |
    12
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110030 false
    更新时间:2024-12-23
  • 李敏, 刘洋, 蔡庆瑞, 朱旭元

    DOI:10.11834/jig.240419
    img
    摘要:磁共振指纹成像(Magnetic Resonance Fingerprinting,MRf)是一种快速高效的定量成像技术。目的本研究旨在提出一种融合自适应稀疏变换学习的MRf重建方法,以提高参数反演的准确性,改善折叠噪声的抑制效果,并保护图像的边缘特征。方法该方法基于盲压缩感知(Blind Compress Sensing,BCS)理论,将稀疏变换学习重建模型引入MRf模型,通过数据驱动的自适应学习获得图像块的最佳稀疏变换域和最优稀疏度,以改善折叠噪声的抑制效果,并利用磁共振指纹的字典重建指纹序列的时域特征,确保参数反演的准确性。同时,为提高重建和反演速度,将指纹重建和参数反演过程映射到低维子空间中,降低时域维度以减少计算量。结果通过与多种模型类重建算法的仿真实验比较,结果表明所提算法在参数估算准确性方面表现优越,三种定量参数的估计误差分别降低至4.67%、4.2%和1.12%,仅为常规反演算法误差的30%。结论所提出的融合自适应稀疏变换学习的MRf重建方法有效改善了折叠噪声的抑制效果和参数反演的准确性,为MRf技术的应用提供了更为可靠的解决方案。  
    关键词:盲压缩感知;磁共振指纹;稀疏变换;稀疏表示;字典匹配   
    8
    |
    14
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79110002 false
    更新时间:2024-12-23
  • 章东平, 李铮, 谢亚光, 王都洋, 汤斯亮, 卜玉真, 王梦婷

    DOI:10.11834/jig.240383
    img
    摘要:目的在医疗保健领域,复杂多变的背景分布、息肉形态与尺寸的显著差异,以及边界定义的模糊性为实现息肉的精确分割造成诸多挑战。为应对上述难题,本文创新性地提出了一种针对结肠镜检查过程中息肉分割问题的深度学习模型,即息肉边界线索深度融合网络(Polyp Boundary Cues Deep Fusion Network,PBCDF-Net)。方法本文所提出的PBCDF-Net网络使用Res2Net-50作为骨干网络,并设计了一种边界线索挖掘模块(Boundary clue mining module,BCMM),旨在合并从骨干网络派生的多级特征,以提取隐藏的边界细节。此外,本文使用前景目标增强模块(Foreground target enhancement module,FTEM)来增强网络对前景目标的关注。最后,在解码阶段设计了一种深度特征融合模块(Deep feature fusion module,DFFM)来整合提取的边界信息和前景目标信息。结果在本研究中,我们以五个公共数据集(Kvasir、ETIS、CVC-ColonDB、CVC-ClinicDB和CVC-300)作为测试基准,全面评估了所提出的PBCDF-Net模型在结直肠息肉分割任务上的性能,并在最新的数据集PolypGen上进行了one-in-out的交叉实验。具体的,在CVC-ClinicDB数据集上,PBCDF-Net与CCBANet相比,在五项评价指标上分别提升了6.6%、7.4%、3.4%、7%和4.9%。在Kvasir和CVC-300数据集上,与近几年方法相比,PBCDF-Net在所有评估指标上平均提升了4.5%、6.2%、2.5%、6.3%和2.9%。此外,PolypGen数据集上的交叉实验结果表明,与PraNet相比,PBCDF-Net在mDice和mIOU上分别提高了4.6%和4.9%,并且在个别指标上优于最先进的方法。结论本文提出的息肉图像分割网络(PBCDF-Net)成功克服了传统算法在面对息肉边界不确定性及形态多样性时的局限性,在广泛的公开数据集验证中展现出了卓越的性能表现,特别是在处理边界模糊且形态多变的复杂息肉案例时,其分割精度与鲁棒性远超同类方法。  
    关键词:息肉图像分割;深度学习;结直肠癌;特征学习;边界线索   
    14
    |
    14
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109822 false
    更新时间:2024-12-23
  • 罗亚波, 梁心语, 张峰, 李存荣

    DOI:10.11834/jig.240152
    img
    摘要:目的步态识别是交通管理、监控安防领域的关键技术,为了解决现有步态识别算法无法充分捕捉和利用人体生物特征,在协变量干扰下模型精度降低的问题,本文提出一种深度提取与融合步态特征与身形特征的高精度步态识别方法。方法该方法首先使用高分辨率网络(high resolution network,HRNet)提取出人体骨架关键点;以残差神经网络 (50-layer residual network,Resnet-50)为主干,利用深度残差模块的复杂特征学习能力,从骨架信息中充分提取相对稳定的身形特征与提供显性高效运动本质表达的步态特征;设计多分支特征融合模块(multi-branch feature fusion,MFF),进行不同通道间的尺寸对齐与权重优化,通过动态权重矩阵调节各分支贡献,融合为区分度更强的总体特征。结果室内数据集采用跨视角多状态CASIA-B(Institute of Automation,Chinese Academy of Sciences)数据集,在跨视角实验中表现稳健;在多状态实验中,常规组的识别准确率为 94.52%,外套干扰组在同类算法中的识别性能最佳。在开放场景数据集中,模型同样体现出较高的泛化能力,相比于现有最新算法,本文方法的准确率提升了4.1%。结论本文设计的步态识别方法充分利用了深度残差模块的特征提取能力与多特征融合的互补优势,面向复杂识别场景仍具有较高的模型识别精度与泛化能力。  
    关键词:生物特征识别;步态识别;高分辨率网络;特征融合;残差神经网络   
    10
    |
    9
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109783 false
    更新时间:2024-12-23
  • 程欣怡, 贾晨, 张梓轩, 石凡

    DOI:10.11834/jig.240391
    img
    摘要:目的当前的光场语义分割方法局限于单一物体、手工特征表达鲁棒性差且缺乏高层角度语义信息,针对上述不足,文中提出了一种适用于静态图像的端到端语义分割网络,充分挖掘了深度卷积神经网络对光场图像特征的表征潜力,探索了空间和角度结构关系以解决过分割和欠分割问题。方法从多尺度光场宏像素图像构造出发,基于多种骨干网络设计,提出了一个高效角度特征提取器(angular feature extractor, AFE)与空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结合的光场语义分割模型。其中,在编码器模块中采用ASPP用于高效地提取并融合宏像素图像中的多尺度空间特征,提高模型对复杂场景的适应能力;在解码器中设计AFE用于提取宏像素图像中的角度结构线索,减少特征在连续下采样过程中存在的角度信息丢失。结果通过在LF Dataset开源数据集上与最新的7种光场最佳方法(state-of-the-art, SOTA)进行实验,利用ResNet101作为骨干网络时所提模型在测试集上实现了88.80%的平均交并比(mean intersection over union, mIoU),在所有对比方法中是最佳的。结论文中所提出的模型在提升语义分割性能方面具有可行性和有效性,能够更加精确地捕捉到图像中细微变化的信息,实现更精确的边界分割,为光场技术在场景理解中的应用提供了新的研究方向。  
    关键词:语义分割;光场成像;宏像素图像;角度线索;空洞卷积   
    7
    |
    8
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109751 false
    更新时间:2024-12-23
  • 张剑, 张一然, 王梓聪

    DOI:10.11834/jig.240216
    img
    摘要:目的深度卷积神经网络在视觉任务中的广泛应用,使得其作为黑盒模型的复杂性和不透明性引发了对决策机制的关注。类激活图已被证明能有效提升图像分类的可解释性从而提高决策机制的理解程度,但现有方法在高亮目标区域时,常存在边界模糊、范围过大和细粒度不足的问题。为此,提出了一种多层混合注意力机制的类激活图方法(spatial attention-based multi-layer fusion for high-quality class activation maps,SAMLCAM),以优化这些局限性。方法在以往的类激活图方法中忽略了空间位置信息只关注通道级权重,降低目标物体的定位性能,在所提出的SAMLCAM方法中提出一种结合了通道注意力机制和空间注意力机制的混合注意力机制,实现增强目标物体定位减少无效位置信息的效果。在得到有效物体定位结果之后,根据神经网络多层卷积层的特点,改进多层特征图融合的方式提出多层加权融合机制,改善类激活图的边界效果范围过大和细粒度不足的问题,从而增强类激活图的视觉解释性。结果引用广泛用于计算机视觉模型的基准测试ILSVRC 2012数据集和MS COCO2017数据集,对提出方法在多种待解释卷积网络模型下进行评估,包括消融实验、定性评估和定量评估。消融实验中证明了各模块的有效性;同时定性评估对其可解释性效果进行视觉直观展示,证明效果的提升;定量评估中数据表明,SAMLCAM在Loc1和Loc5指标性能比较中相较于最低数据均有大于7%的提升,在能量定位决策指标的比较中相较于最低数据均有大于9.85%的提升。由于改进方法减少了目标样本区域的上下文背景区域,使得其对结果置信度存在负影响,但在可信度指标中,与其他方法比较仍可以保持不超过2%的差距并维持较高性能。  
    关键词:类激活图;人工智能解释性;注意力机制;特征归因;图像分类;卷积神经网络   
    10
    |
    8
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109714 false
    更新时间:2024-12-23
  • 叶标华, 康丹青, 谢晓华, 赖剑煌

    DOI:10.11834/jig.240434
    img
    摘要:在现代制造业中,基于机器视觉的表面缺陷检测是保证产品质量的关键,在工业智能化发展中发挥着重要作用。然而,获取缺陷数据的标注需要花费大量人力和时间成本。随着深度学习、 大数据和传感器等技术的发展,如何在非完全标注的情况下实现准确、快速和鲁棒的缺陷识别成为当前的研究热点。该文对非完全标注场景下的表面缺陷检测技术的研究进展进行了全面的梳理回顾。首先简要介绍了缺陷检测领域的研究背景、基础概念的定义、常用数据集和相关技术。在此基础上,从标签策略以及任务策略两个角度详细介绍了多种非完全标注场景下的缺陷检测技术。在标签策略中,本文比较了基于无监督、半监督、弱监督学习下的不同缺陷检测算法的研究思路。在任务策略中,本文总结了领域自适应、小样本以及大模型的表面缺陷检测算法的最新进展。接着,本文在多个数据集上横向对比了不同标签策略以及任务策略中前沿算法的性能。最后,对该任务中的弱小目标检测、伪标签质量评估以及大模型的知识迁移等问题进行总结和展望。总体而言,非完全标注的表面缺陷检测是一个充满挑战且技术性极强的问题。同时,如何进一步推动表面缺陷检测技术进一步利用非完全标注的数据,并切实在工业制造场景中落地应用还需要更深入的研究。  
    关键词:缺陷检测;非完全标注;无监督学习;弱监督学习;半监督学习;域适应;小样本   
    15
    |
    12
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 79109665 false
    更新时间:2024-12-23
0