摘要:RGB-D图像包含丰富的多层特征,如底层的线特征、平面特征,高层的语义特征,面向RGB-D图像的多层特征提取结果可以作为先验知识提升室内场景重建、SLAM(simultaneous localization and mapping)等多种任务的输出质量,是计算机图形学领域的热点研究内容之一。传统的多层特征提取算法一般利用RGB图像中丰富的颜色、纹理信息以及深度图像中的几何信息提取多层特征,此类提取算法依赖输入RGB-D图像的质量,而受采集过程中环境和人为因素的影响,很难得到高质量的RGB-D图像。随着深度学习技术的快速发展,基于深度学习的多层特征提取算法突破了这一限制,涌现出一批高质量的研究成果。本文对面向RGB-D图像的多层特征提取算法进行综述。首先,汇总了现有的常用于多层特征提取任务的RGB-D数据集和相关算法的质量评价指标。然后,按照特征所处的不同层次,依次对线、平面和语义特征相关算法进行了总结。此外,本文还对各算法的优缺点进行比较并结合常用算法质量评价标准进行了定量分析。最后,讨论了当前多层特征提取算法亟待解决的问题并展望了未来发展的趋势。
摘要:目的现有的跨域重识别任务普遍存在源域与目标域之间的域偏差大和聚类质量差的问题,同时跨域模型过度关注在目标域上的泛化能力将导致对源域知识的永久性遗忘。为了克服以上挑战,提出了一个基于跨域联合学习与共享子空间度量的车辆重识别方法。方法在跨域联合学习中设计了一种交叉置信软聚类来建立源域与目标域之间的域间相关性,并利用软聚类结果产生的监督信息来保留旧知识与泛化新知识。提出了一种显著性感知注意力机制来获取车辆的显著性特征,将原始特征与显著性特征映射到一个共享子空间中并通过它们各自全局与局部之间的杰卡德距离来获取共享度量因子,根据共享度量因子来平滑全局与局部的伪标签,进而促使模型能够学习到更具鉴别力的特征。结果在3个公共车辆重识别数据集VeRi-776(vehicle re-identification-776 dataset)、VehicleID(large-scale vehicle re-identification dataset)和VeRi-Wild(vehicle re-identification dataset in the wild)上与较新方法进行实验对比,以首位命中率(rank-1 accuracy,Rank-1)和平均精度均值(mean average precision,mAP)作为性能评价指标,本文方法在VeRi-776→VeRi-Wild,VeRi-Wild→VeRi-776,VeRi-776→VehicleID,VehicleID→VeRi-776的跨域任务中,分别在目标域中取得了42.40%,41.70%,56.40%,61.90%的Rank-1准确率以及22.50%,23.10%,41.50%,49.10%的mAP准确率。在积累源域的旧知识表现中分别取得了84.60%,84.00%,77.10%,67.00%的Rank-1准确率以及55.80%,44.80%,46.50%,30.70%的mAP准确率。结论相较于无监督域自适应和无监督混合域方法,本文方法能够在积累跨域知识的同时有效缓解域偏差大的问题,进而提升车辆重识别的性能。
摘要:目的基于深度学习的端到端场景文本识别任务已经取得了很大的进展。然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果。为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块(soft attention mask embedding,SAME),方法利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声。基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别。具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化。结果在多个文本识别公开数据集上的实验表明了所提方法的有效性。其中,SAME-Net在任意形状文本数据集Total-Text上实现了84.02%的H-mean,相比于2022年的GLASS(global to local attention for scene-text spotting),在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%。所提方法在多向数据集ICDAR 2015(International Conference on Document Analysis and Recognition)也获得了与同期工作相当的性能,取得83.4%的强词典识别结果。结论提出了一种基于SAME的端到端文本识别方法。该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块。通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能。
摘要:目的为了更好地实现轻量化的人体姿态估计,在轻量级模型极为有限的资源下实现更高的检测性能。基于高分辨率网络(high resolution network,HRNet)提出了结合密集连接网络的轻量级高分辨率人体姿态估计网络(lightweight high-resolution human estimation combined with densely connected network,LDHNet)。方法通过重新设计HRNet中的阶段分支结构以及提出新的轻量级特征提取模块,构建了轻量高效的特征提取单元,同时对多分支之间特征融合部分进行了轻量化改进,进一步降低模型的复杂度,最终大幅降低了模型的参数量与计算量,实现了轻量化的设计目标,并且保证了模型的性能。结果实验表明,在MPII(Max Planck Institute for Informatics)测试集上相比于自顶向下的轻量级人体姿态估计模型LiteHRNet,LDHNet仅通过增加少量参数量与计算量,平均预测准确度即提升了1.5%,与LiteHRNet的改进型DiteHRNet相比也提升了0.9%,在COCO(common objects in context)验证集上的结果表明,与LiteHRNet相比,LDHNet的平均检测准确度提升了3.4%,与DiteHRNet相比也提升了2.3%,与融合Transformer的HRFormer相比,LDHNet在参数量和计算量都更低的条件下有近似的检测性能,在面对实际场景时LDHNet也有着稳定的表现,在同样的环境下LDHNet的推理速度要高于基线HRNet以及LiteHRNet等。结论该模型有效实现了轻量化并保证了预测性能。
摘要:目的随着遥感观测技术的飞速发展,遥感影像的分辨率越来越高,如何从高分遥感影像中有效提取具有鉴别性的特征进行地物变化检测成为一个具有挑战性的问题。卷积神经网络广泛应用于计算机视觉领域,但面向遥感影像变化检测时仍存在图像语义或位置信息的丢失及网络参数量过大等缺陷,导致检测性能受限。为此,提出一种新型GUNet++(Ghost-UNet++)网络,用于遥感影像的精准变化检测。方法首先,为了提取双时相遥感影像更具判别性的深度特征,设计具有多分支架构的高分辨率网络HRNet替换传统UNet++的主干网;其次,采用UNet++解码结构进行差异判别时,引入鬼影(Ghost)模块代替传统卷积模块以降低网络参量,并设计密集跳跃连接进一步加强信息传输,以减少深层位置信息的丢失;最后,设计一个集成注意力模块,将网络的多个语义层次特征进行聚合和细化,抑制语义和位置信息的丢失,进一步增强特征表征能力用于最终的精准变化检测。结果在LEVIR-CD(LEVIR change detection data set)和Google Data Set两个公开数据集上进行实验,结果表明本文算法变化检测精度高达99.62%和99.16%,且网络参数量仅为1.93 M,与现有主流变化检测方法相比优势明显。结论提出方法综合考虑了遥感图像中语义和位置信息对变化检测性能的影响,具有良好的特征抽取和表征能力,因此变化检测的精度和效率比现有同类方法更高。