目的文本-图像的行人检索任务(text-to-image person retrieval, TIPR)利用自然语言描述从监控图像库中定位目标行人,是智慧城市与智能安防中的关键技术。随着无人机成像技术的发展,“空-地协同”多视角监控成为主流趋势,但目前TIPR研究主要聚焦地面视角,缺乏同时涵盖空中与地面视角的基准数据集,制约了其在多视角协同监控场景中的应用。因此,本文旨在构建一个包含空中与地面视角的混合多视角行人检索基准数据集,以推动多视角TIPR的研究。方法为此,本文构建了文本-图像的空中-地面多视角混合行人检索数据集(aerial-ground mixed-view person retrieval dataset, AGMix-PR)。该数据集通过采集多源数据库中的空中与地面视角行人图像,真实反映了实际应用场景中的挑战。为支持大规模高质量文本标注,本文进一步提出一种属性引导的层次化文本生成框架:利用结构化属性作为高层引导信号驱动多模态大语言模型生成准确且多样化的自然语言描述,确保了低成本条件下的高质量文本输出。结果实验结果表明,现有主流TIPR方法在AGMix-PR上整体性能显著下降,反映出多视角场景带来的挑战。结论AGMix-PR数据集有效弥补了当前TIPR领域在空–地多视角混合场景下基准数据集的不足,其构建方法为经济高效地创建多模态数据集提供了新思路。该数据集为相关研究提供了一个重要的基准平台,有助于推动鲁棒行人检索理论与方法的发展,适应真实复杂场景的需求。AGMix-PR数据集的在线发布地址为:https://github.com/barry-wy/AGMix_PR。
目的现有目标检测主动学习的度量方法仅依赖检测器自身输出,难以识别高置信但语义错误的误检结果且易造成采样冗余。为此,本文旨在引入跨模态先验以提升主动采样的可靠性与有效性。方法提出跨模态先验驱动的语义增强主动学习方法(semantic enhanced active learning,SEAL),在不增加额外监督的前提下利用视觉语言模型如对比语言-图像预训练模型(contrastive language-image pre-training,CLIP)的语义对齐能力提升样本选择质量,有效纠正单模态检测器在训练数据匮乏时的判别偏差。在不确定性采样阶段,SEAL使用CLIP对图像候选检测框区域进行特征提取,通过对比检测器与CLIP的类别预测结果,构建融合视觉与语义的一致性指标,实现更鲁棒的实例级不确定性度量。在多样性采样阶段,聚合图像各类别目标的CLIP特征,构建类别级结构特征表示,并据此计算图像间的结构相似性,实现类别对齐的多样性度量,提升采样的类别覆盖和信息表达多样性。结果在MS COCO与Pascal VOC数据集上的实验结果表明,SEAL在多种主动学习基准设置下均优于主流方法,表现出更高的检测精度。在RetinaNet on Pascal VOC基准上(20%标注数据),SEAL方法的mAP@0.5为72.4%,较当前最优方法提升0.8%;在RetinaNet on MS COCO基准上(10%标注数据),AP@[0.5:0.95]为23.9%,提升0.5%。结论本文提出的SEAL方法成功地利用了跨模态先验知识来优化主动学习中的样本选择过程。通过构建更鲁棒的不确定性度量和更具代表性的多样性度量,能够显著减少数据标注成本、提升模型学习效率。