摘要:目的相比于一般视频目标检测跟踪任务,视频羽毛球的实时定位跟踪主要面临两大难点:1)羽毛球属于小目标,同时伴有严重的运动模糊以及相似目标的干扰,使用基于矩形框的目标检测跟踪方法准确率低且会带来中心点误差问题;2)单帧图像很难准确定位羽毛球目标,利用视频前后帧的时域特征则可以跟踪到羽毛球目标,而现有提取时域特征的网络模块结构复杂,难以满足实时性要求。针对以上问题,本文使用热力图轮廓检测方法,提出了羽毛球运动小目标的定位跟踪网络算法(shuttlecock track net,STNet)。方法网络主体采用“U”型编解码结构;针对小目标像素信息少的问题,基于SE(squeeze and excitation)通道注意力与残差结构设计高效特征提取模块(SE channel attention and residual,SECAR),实现了空域信息的高效提取与传递,提高了网络的定位性能;针对目标丢失与相似目标干扰问题,设计了时序网络(temporal network,TPN)结构用于提取和记忆视频时域特征,提高了网络跟踪性能。结果在羽毛球比赛公开数据集TrackNetv2与自制数据集上的实验表明,本文方法在多个指标上取得了最好的性能表现。相较于现有性能较好的羽毛球定位跟踪方法TrackNetv2,本文方法在准确率、精确率和F1上分别提高7.5%、15.7%和7.5%,并且显著降低了参数量,满足实时处理需求(54帧/s)。结论本文提出的STNet羽毛球定位跟踪网络,在面对羽毛球目标外观剧烈变化以及背景干扰严重时,能够准确定位羽毛球比赛视频帧中可能存在的羽毛球,实现羽毛球的稳定跟踪,相比其他羽毛球定位跟踪网络,具有更优的性能。
摘要:目的图像拼接通过整合不同视角的可见光数据获得广角合成图。不利的天气因素会使采集到的可见光数据退化,导致拼接效果不佳。红外传感器通过热辐射成像,在不利的条件下也能突出目标,克服环境和人为因素的影响。方法考虑到红外传感器和可见光传感器的成像互补性,本文提出了一个基于多模态数据(红外和可见光数据)特征融合的图像拼接算法。首先利用红外数据准确的结构特征和可见光数据丰富的纹理细节由粗到细地进行偏移估计,并通过非参数化的直接线性变换得到变形矩阵。然后将拼接后的红外和可见光数据进行融合,丰富了场景感知信息。结果本文选择包含530对可拼接多模态图像的真实数据集以及包含200对合成数据集作为测试数据,选取了3个最新的融合方法,包括RFN(residual fusion network)、ReCoNet(recurrent correction network)和DATFuse(dual attention transformer),以及7个拼接方法,包括APAP(as projective as possible)、SPW(single-perspective warps)、WPIS(wide parallax image stitching)、SLAS(seam-guided local alignment and stitching)、VFIS(view-free image stitching)、RSFI(reconstructing stitched features to images)和UDIS++(unsupervised deep image stitching)组成的21种融合—拼接策略进行了定性和定量的性能对比。在拼接性能上,本文方法实现了准确的跨视角场景对齐,平均角点误差降低了53%,避免了鬼影的出现;在多模态互补信息整合方面,本文方法能自适应兼顾红外图像的结构信息以及可见光图像的丰富纹理细节,信息熵较DATFuse-UDIS++策略提升了24.6%。结论本文方法在结合了红外和可见光图像成像互补优势的基础上,通过多尺度递归估计实现了更加准确的大视角场景生成;与常规可见光图像拼接相比鲁棒性更强。
摘要:目的在行人再识别中,行人朝向变化会导致表观变化,进而导致关联错误。现有方法通过朝向表示学习和基于朝向的损失函数来改善这一问题。然而,大多数朝向表示学习方法主要以嵌入朝向标签为主,并没有显式的向模型传达行人姿态的空间结构,从而减弱了模型对朝向的感知能力。此外,基于朝向的损失函数通常对相同身份的行人进行朝向聚类,忽略了由表观相似且朝向相同的负样本造成的错误关联的问题。方法为了应对这些挑战,提出了面向行人再识别的朝向感知特征学习。首先,提出了基于人体姿态的朝向特征学习,它能够显式地捕捉人体姿态的空间结构。其次,提出的朝向自适应的三元组损失主动增大表观相似且相同朝向行人之间的间隔,进而将它们分离。结果本文方法在大规模的行人再识别公开数据集MSMT17(multi-scene multi-time person ReID dataset)、Market1501等上进行测试。其中,在MSMT17数据集上,相比于性能第2的UniHCP(unified model for human-centric perceptions)模型,Rank1和mAP值分别提高了1.7%和1.3%;同时,在MSMT17数据集上的消融实验结果证明本文提出的算法有效改善了行人再识别的关联效果。结论本文方法能够有效处理上述挑战导致的行人再识别系统中关联效果变差的问题。
摘要:目的近年来,Transformer跟踪器取得突破性的进展,其中自注意力机制发挥了重要作用。当前,自注意力机制中独立关联计算易导致权重不明显现象,限制了跟踪方法性能。为此,提出了一种融合上下文感知注意力的Transformer目标跟踪方法。方法首先,引入SwinTransformer(hierarchical vision Transformer using shifted windows)以提取视觉特征,利用跨尺度策略整合深层与浅层的特征信息,提高网络对复杂场景中目标表征能力。其次,构建了基于上下文感知注意力的编解码器,充分融合模板特征和搜索特征。上下文感知注意力使用嵌套注意计算,加入分配权重的目标掩码,可有效抑制由相关性计算不准确导致的噪声。最后,使用角点预测头估计目标边界框,通过相似度分数结果更新模板图像。结果在TrackingNet(large-scale object tracking dataset)、LaSOT(large-scale single object tracking)和GOT-10K(generic object tracking benchmark)等多个公开数据集上开展大量测试,本文方法均取得了优异性能。在GOT-10K上平均重叠率达到73.9%,在所有对比方法中排在第1位;在LaSOT上的AUC(area under curve)得分和精准度为0.687、0.749,与性能第2的ToMP(transforming model prediction for tracking)相比分别提高了1.1%和2.7%;在TrackingNet上的AUC得分和精准度为0.831、0.807,较第 2 名分别高出 0.8%和0.3%。结论所提方法利用上下文感知注意力聚焦特征序列中的目标信息,提高了向量交互的精确性,可有效应对快速运动、相似物干扰等问题,提升了跟踪性能。
摘要:目的桨叶运动参数是直升机设计到生产的重要指标,传统的视觉测量方法直接应用于室外环境下,由于受复杂光照背景影响,存在找不到桨叶区域、不能进行准确测量的问题。据此,本文提出一种融合多特征与自注意力的旋转目标检测器(fusion multi-feature and self-attention rotating detector,FMSA-RD)。方法首先,针对YOLOv5s(you only look once)特征提取能力不足和冗余问题,在主干网络中设计了更为有效的多特征提取和融合模块,结合不同时刻位置与尺度下的特征信息以提高网络对室外桨叶的检测精度;并去掉部分无关卷积层以简化模块结构参数。其次,融合多头自注意力机制与CSP(crossstage partial convolution)瓶颈结构,整合全局信息以抑制室外复杂光照背景干扰。最后,引入倾斜交并比(skew intersection over union,SKEWIOU)损失和角度损失,改进损失函数,进一步提升桨叶检测精度。结果本文进行了多组对比实验,分别在自制的室外直升机桨叶数据集和公共数据集DOTA-v1.0(dataset for object detection in aerial images)上进行验证,对比基线YOLOv5s目标检测网络,本文模型平均精度均值(mean average precision,mAP)分别提高6.6%和12.8%,帧速率(frames per second,FPS)分别提高21.8%和47.7%。结论本文设计的旋转目标检测模型,提升了室外复杂光照背景下桨叶的检测精度和速度。
摘要:目的综合考虑B型超声(B-mode ultrasound, B-US)和对比增强超声(contrast-enhanced ultrasound, CEUS)双模态信息有助于提升乳腺肿瘤诊断的准确性,从而利于提高患者生存率。然而,目前大多数模型只关注B-US的特征提取,忽视了CEUS特征的学习和双模态信息的融合处理。为解决上述问题,提出了一个融合时空特征与时间约束的双模态乳腺肿瘤诊断模型(spatio-temporal feature and temporal-constrained model, STFTCM)。方法首先,基于双模态信息的数据特点,采用异构双分支网络学习B-US和CEUS包含的时空特征。然后,设计时间注意力损失函数引导CEUS分支关注造影剂流入病灶区的时间窗口,从该窗口期内提取CEUS特征。最后,借助特征融合模块实现双分支网络之间的横向连接,通过将B-US特征作为CEUS分支补充信息的方式,完成双模态特征融合。结果在收集到的数据集上进行对比实验,STFTCM预测的正确率、敏感性、宏平均F1和AUC(area under the curve)指标均表现优秀,其中预测正确率达88.2%,领先于其他先进模型。消融实验中,时间注意力约束将模型预测正确率提升5.8%,特征融合使得模型诊断正确率相较于单分支模型至少提升2.9%。结论本文提出的STFTCM能有效地提取并融合处理B-US和CEUS双模态信息,给出准确的诊断结果。同时,时间注意力约束和特征融合模块可以显著地提升模型性能。