目的针对遥感图像分割的区域连续性差、边界消失和尺度变化大等导致建筑物分割精度低的问题,提出了一种基于全局感知与细节增强的非对称遥感建筑物分割网络(Global Perception and Detail Enhancement Asymmetric-UNet,GPDEA-UNet)。方法该网络在U-Net网络基础上,首先构建了一个基于选择性状态空间的特征编码器模块,以视觉状态空间(Visual state space,VSS)作为基础单元,结合动态卷积分解(Dynamic convolution decomposition,DCD)捕捉遥感图像中的复杂特征和上下文信息;其次通过引入多尺度双交叉融合注意力模块(Multi-scale dual cross-attention,MDCA)解决多尺度编码器特征间的通道与空间依赖性问题,并缩小编解码器特征之间的语义差距;最后设计了一个细节增强解码器模块,使用DCD与级联上采样模块(Cascade upsampling,CU)恢复更丰富的语义信息,保留特征细节与语义完整,最终确保分割结果的精确性与细腻度。结果实验在WHU Building Dataset和Massachusetts Building Dataset数据集上与多种方法进行了比较,实验结果表明,所提出的网络GPDEA-UNet在WHU Building Dataset数据集上IoU、Precision、Recall、F1-score分别可达91.60%,95.36%,95.89%,95.62%;在Massachusetts Building Dataset数据集上IoU、Precision、Recall、F1-score分别可达到72.51%,79.44%,86.81%,82.53%。结论所提出的基于全局感知与细节增强的非对称遥感建筑物分割网络,可以有效提高遥感影像建筑物的分割精度。
目的针对图像分类任务中对于细粒度特征提取困难,同时背景噪声和不相关区域影响网络对目标特征学习的问题,本文提出随机空洞卷积的图像分类网络(image classification network with random dilated convolution,RDCNet)。方法RDCNet网络以ResNet-34为基线网络。首先,提出多分支随机空洞卷积(multi-branch random dilated convolution,MRDC)模块,通过多个分支的卷积操作和随机膨胀卷积核的设计,实现了从不同尺度和感受野上对细粒度特征的有效捕捉。通过引入细粒度特征增强(fine-grained feature enhancement,FGFE)模块,实现对全局信息的学习和局部特征的增强,提升了网络局部特征提取和全局上下文理解能力。同时引入随机掩码机制动态地遮蔽部分输入特征和卷积核权重,不仅可以通过多样化的特征组合来学习更加健壮和鲁棒性的表示,还能够有效减少过拟合,提升对噪声和不相关区域的适应能力。最后,提出上下文激励(context excitation,CE)模块,通过引入上下文信息并动态调整特征通道的权重,增强网络对关键特征的关注能力,抑制背景噪声的干扰,提升了特征的表达能力。结果本文方法在CIFAR-10、CIFAR100、SVHN、Imagenette、Imagewoof数据集上均有良好的分类准确率,相比于性能第2的模型,分类准确率分别提高了0.02%、1.12%、0.32%、4.73%、3.56%,实验结果证明RDCNet具有较高的分类性能。结论随机空洞卷积的图像分类网络具有更强的细粒度特征敏感度,能够在多尺度和上下文中提取丰富的特征信息,较好地关注关键特征,对复杂背景下目标具有更优秀的辨识能力,从而在分类任务中表现出优异的分类性能。
目的现有360°全景图像显著目标检测方法一定程度上解决了360°全景图像投影后的几何畸变问题,但是这些方法面对复杂场景或是前景与背景对比度较低的场景时,容易受到背景干扰,导致检测效果不佳。为了同时解决几何畸变和背景干扰,本文提出了一种畸变自适应与位置感知的360°全景图像显著目标检测网络(distortion-adaptive and position-aware network,DPNet)。方法提出了两个对畸变和位置敏感的自适应检测模块:畸变自适应模块(distortion-adaptive module,DAM)和位置感知模块(position-aware module,PAM)。它们可以帮助模型根据等矩形投影的特点和具体图像来决定该关注图像的哪些区域。在此基础上,本文进一步提出了一个显著信息增强模块(salient information enhancement module,SIEM),该模块用高级特征来指导低级特征,过滤其中的非显著信息,防止背景干扰对360°显著目标检测效果的影响。结果实验在2个公开数据集(360-SOD,360-SSOD)上与最新的13种方法进行了客观指标和主观结果的比较,在8个评价指标上的综合性能优于最新的13种方法。并且本文还设置了泛化性实验,采用交叉验证的方式证明了本文模型优秀的泛化性能。结论本文所提出的360°全景图像显著目标检测模型DPNet,同时考虑了360°全景图像投影后的几何畸变问题和复杂场景下的背景干扰问题,能够有效地、完全自适应地检测显著目标。