摘要:目的针对遥感图像分割的区域连续性差、边界消失和尺度变化大等导致建筑物分割精度低的问题,提出了一种基于全局感知与细节增强的非对称遥感建筑物分割网络(Global Perception and Detail Enhancement Asymmetric-UNet,GPDEA-UNet)。方法该网络在U-Net网络基础上,首先构建了一个基于选择性状态空间的特征编码器模块,以视觉状态空间(Visual state space,VSS)作为基础单元,结合动态卷积分解(Dynamic convolution decomposition,DCD)捕捉遥感图像中的复杂特征和上下文信息;其次通过引入多尺度双交叉融合注意力模块(Multi-scale dual cross-attention,MDCA)解决多尺度编码器特征间的通道与空间依赖性问题,并缩小编解码器特征之间的语义差距;最后设计了一个细节增强解码器模块,使用DCD与级联上采样模块(Cascade upsampling,CU)恢复更丰富的语义信息,保留特征细节与语义完整,最终确保分割结果的精确性与细腻度。结果实验在WHU Building Dataset和Massachusetts Building Dataset数据集上与多种方法进行了比较,实验结果表明,所提出的网络GPDEA-UNet在WHU Building Dataset数据集上IoU、Precision、Recall、F1-score分别可达91.60%,95.36%,95.89%,95.62%;在Massachusetts Building Dataset数据集上IoU、Precision、Recall、F1-score分别可达到72.51%,79.44%,86.81%,82.53%。结论所提出的基于全局感知与细节增强的非对称遥感建筑物分割网络,可以有效提高遥感影像建筑物的分割精度。
摘要:目的针对图像分类任务中对于细粒度特征提取困难,同时背景噪声和不相关区域影响网络对目标特征学习的问题,本文提出随机空洞卷积的图像分类网络(image classification network with random dilated convolution,RDCNet)。方法RDCNet网络以ResNet-34为基线网络。首先,提出多分支随机空洞卷积(multi-branch random dilated convolution,MRDC)模块,通过多个分支的卷积操作和随机膨胀卷积核的设计,实现了从不同尺度和感受野上对细粒度特征的有效捕捉。通过引入细粒度特征增强(fine-grained feature enhancement,FGFE)模块,实现对全局信息的学习和局部特征的增强,提升了网络局部特征提取和全局上下文理解能力。同时引入随机掩码机制动态地遮蔽部分输入特征和卷积核权重,不仅可以通过多样化的特征组合来学习更加健壮和鲁棒性的表示,还能够有效减少过拟合,提升对噪声和不相关区域的适应能力。最后,提出上下文激励(context excitation,CE)模块,通过引入上下文信息并动态调整特征通道的权重,增强网络对关键特征的关注能力,抑制背景噪声的干扰,提升了特征的表达能力。结果本文方法在CIFAR-10、CIFAR100、SVHN、Imagenette、Imagewoof数据集上均有良好的分类准确率,相比于性能第2的模型,分类准确率分别提高了0.02%、1.12%、0.32%、4.73%、3.56%,实验结果证明RDCNet具有较高的分类性能。结论随机空洞卷积的图像分类网络具有更强的细粒度特征敏感度,能够在多尺度和上下文中提取丰富的特征信息,较好地关注关键特征,对复杂背景下目标具有更优秀的辨识能力,从而在分类任务中表现出优异的分类性能。
摘要:目的现有360°全景图像显著目标检测方法一定程度上解决了360°全景图像投影后的几何畸变问题,但是这些方法面对复杂场景或是前景与背景对比度较低的场景时,容易受到背景干扰,导致检测效果不佳。为了同时解决几何畸变和背景干扰,本文提出了一种畸变自适应与位置感知的360°全景图像显著目标检测网络(distortion-adaptive and position-aware network,DPNet)。方法提出了两个对畸变和位置敏感的自适应检测模块:畸变自适应模块(distortion-adaptive module,DAM)和位置感知模块(position-aware module,PAM)。它们可以帮助模型根据等矩形投影的特点和具体图像来决定该关注图像的哪些区域。在此基础上,本文进一步提出了一个显著信息增强模块(salient information enhancement module,SIEM),该模块用高级特征来指导低级特征,过滤其中的非显著信息,防止背景干扰对360°显著目标检测效果的影响。结果实验在2个公开数据集(360-SOD,360-SSOD)上与最新的13种方法进行了客观指标和主观结果的比较,在8个评价指标上的综合性能优于最新的13种方法。并且本文还设置了泛化性实验,采用交叉验证的方式证明了本文模型优秀的泛化性能。结论本文所提出的360°全景图像显著目标检测模型DPNet,同时考虑了360°全景图像投影后的几何畸变问题和复杂场景下的背景干扰问题,能够有效地、完全自适应地检测显著目标。
摘要:目的谎言检测通过分析个体的生理行为特征来识别其是否说谎,在刑侦和安全审查等领域具有重要应用。然而,目前缺乏公开的中文测谎数据集,考虑到语言和文化方面的差异,基于英文数据集研发的算法可能难以适用于中文语境。此外,现有数据集样本规模有限,在激发被试说谎动机方面存在不足。针对这些问题,构建了首个公开的中文多模态测谎数据集(Southeast University multimodal lie detection dataset,SEUMLD)。方法实验基于犯罪知识测试范式,设计了模拟犯罪和模拟审讯等流程以激发被试的说谎动机。通过记录被试在模拟审讯过程中的多模态信号,SEUMLD包含了长期生活在中文语境下的76位被试的视频、音频以及心电三种模态数据,共计3224段对话。该数据集不仅提供了用于判断被试是否说谎的长会话标注(粗粒度标注),还提供了每段长会话细化分割的精准标注(细粒度标注)。基于SEUMLD,设计了跨语种实验以验证语言文化差异对说谎行为的影响;通过迁移学习实验评估其在提升模型泛化能力上的性能;最后基于经典谎言检测方法对SEUMLD进行了基准实验。结果跨语种测谎实验在中英文语境下表现出了显著差异。迁移学习实验验证了SEUMLD在提升模型泛化能力上的优异表现。基准实验结果显示,基于单模态的粗粒度和细粒度测谎的最佳未加权平均召回率(unweighted average recall,UAR)识别结果分别为0.7576和0.7096;融合了多模态信息后的测谎性能达到最佳,在粗粒度检测和细粒度测谎的识别结果分别为0.8083和0.7379。结论SEUMLD为研究中文语境下的多模态测谎提供了重要的数据来源,对未来研究中文母语者的说谎模式具有重要意义。数据集开源地址:https://aip.seu.edu.cn/2024/1219/c54084a515309/page.htm。
摘要:目的图像复原是计算机视觉领域的经典研究问题。选择性状态空间模型(Selective State Space Models, SSMs)因其高效的序列建模能力,被广泛应用于各类图像复原任务。另一方面,非局部图像块之间存在依赖关系,能够辅助提升复原性能。然而,传统SSMs采用确定性的令牌(Token)扫描方式,仅能提取令牌序列的单向依赖关系。此时,令牌间的关系建模因在序列中的先后顺序受到因果性制约,这与图像块之间的非因果相互关系形成冲突,限制了复原性能的进一步提升。针对此问题,提出一种面向图像复原的非因果选择性状态空间模型,旨在赋予SSMs建模令牌之间非因果依赖关系的能力。方法为解决SSMs在因果性建模与图像内容非因果关系之间的矛盾,提出了随机扫描策略,突破了传统扫描方式在因果性和空间限制上的局限,实现了令牌序列之间的非因果建模。具体而言,构建了随机重排和逆重排函数,实现了非固定次序下的令牌扫描,有效建模了不同令牌之间的非因果依赖关系。此外,针对图像退化干扰存在空间尺度变化和形态结构复杂的特点,融合多尺度先验构建了具有局部与全局信息互补性的非因果Mamba模型(Non-Causal Mamba, NCMamba),实现了对于各类图像复原任务的有效适配。结果实验分别在图像去噪、去模糊和去阴影任务上进行,验证了所提非因果建模和局部-全局互补策略的有效性。例如,与现有方法相比,所提模型在图像去阴影数据集SRD上的峰值信噪比提升了0.86 dB。结论面向图像复原任务,构建了非因果选择性状态空间模型,建模了令牌之间的非因果依赖关系,实现了局部与全局信息的有效互补,显著提升了复原性能。实验结果表明,所提方法在主客观评价指标上均取得优异性能,为图像复原领域提供了新的解决方案。
摘要:目的针对遥感图像(remote sensing image,RSI)检测中目标尺寸小且密集、尺度变化大,尤其在复杂背景信息下容易出现漏检和误检问题,提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,以提升遥感图像的检测精度。方法首先,设计自适应大感受野机制(adaptive large receptive field,ALRF)用于特征提取。该机制通过级联不同扩张率的深度卷积进行分层特征提取,并利用通道和空间注意力对提取的特征进行通道加权和空间融合,使模型能够自适应地调整感受野大小,从而实现遥感图像上下文信息的有效利用。其次,为解决颈部网络特征融合过程中小目标语义信息丢失问题,设计多尺度特征序列融合架构(multi-scale feature fusion,MFF)。该架构通过构建多尺度特征序列,并结合浅层语义特征信息,实现复杂背景下多尺度全局信息的有效融合,从而减轻深层网络中特征模糊性对小目标局部细节捕捉的影响。最后,因传统交并比(IoU,intersection over union)对小目标位置偏差过于敏感,引入归一化Wasserstein距离(normalized Wasserstein distance,NWD)。NWD将边界框建模为二维高斯分布,计算这些分布间的Wasserstein距离来衡量边界框的相似性,从而降低小目标位置偏差敏感性。结果在NWPU VHR-10(Northwestern Polytechnical University very high resolution 10 dataset)和DIOR(dataset for object detection in aerial images)数据集上与10种方法进行综合比较,结果表明,提出的方法优于对比方法,其中,相较于基准模型YOLOv8n,平均精度(average precision,AP)分别达到93.15%和80.89%,提升5.48%和2.97%,同时参数量下降6.96%。结论提出一种上下文信息和多尺度特征序列引导的遥感图像检测方法,该方法提升目标的定位能力,改善复杂背景下遥感图像检测中的漏检和误检问题。
摘要:目的步态识别是交通管理、监控安防领域的关键技术,为了解决现有步态识别算法无法充分捕捉和利用人体生物特征,在协变量干扰下模型精度降低的问题,本文提出一种深度提取与融合步态特征与身形特征的高精度步态识别方法。方法该方法首先使用高分辨率网络(high resolution network,HRNet)提取出人体骨架关键点;以残差神经网络 (50-layer residual network,Resnet-50)为主干,利用深度残差模块的复杂特征学习能力,从骨架信息中充分提取相对稳定的身形特征与提供显性高效运动本质表达的步态特征;设计多分支特征融合模块(multi-branch feature fusion,MFF),进行不同通道间的尺寸对齐与权重优化,通过动态权重矩阵调节各分支贡献,融合为区分度更强的总体特征。结果室内数据集采用跨视角多状态CASIA-B(Institute of Automation,Chinese Academy of Sciences)数据集,在跨视角实验中表现稳健;在多状态实验中,常规组的识别准确率为 94.52%,外套干扰组在同类算法中的识别性能最佳。在开放场景数据集中,模型同样体现出较高的泛化能力,相比于现有最新算法,本文方法的准确率提升了4.1%。结论本文设计的步态识别方法充分利用了深度残差模块的特征提取能力与多特征融合的互补优势,面向复杂识别场景仍具有较高的模型识别精度与泛化能力。