单目视觉惯性同步定位与地图构建(visual-inertial simultaneous localization and mapping,VI-SLAM)技术因具有硬件成本低、无需对外部环境进行布置等优点,得到了广泛关注,在过去的十多年里取得了长足的进步,涌现出诸多优秀的方法和系统。由于实际场景的复杂性,不同方法难免有各自的局限性。虽然已经有一些工作对VI-SLAM方法进行了综述和评测,但大多只针对经典的VI-SLAM方法,已不能充分反映最新的VI-SLAM技术发展现状。本文首先对基于单目VI-SLAM方法的基本原理进行阐述,然后对单目VI-SLAM方法进行分类分析。为了综合全面地对比不同方法之间的优劣势,本文特别选取3个公开数据集对代表性的单目VI-SLAM方法从多个维度上进行定量评测,全面系统地分析了各类方法在实际场景尤其是增强现实应用场景中的性能。实验结果表明,基于优化或滤波和优化相结合的方法一般在跟踪精度和鲁棒性上比基于滤波的方法有优势,直接法/半直接法在全局快门拍摄的情况下精度较高,但容易受卷帘快门和光照变化的影响,尤其是大场景下误差累积较快;结合深度学习可以提高极端情况下的鲁棒性。最后,针对深度学习与V-SLAM/VI-SLAM结合、多传感器融合以及端云协同这3个研究热点,对SLAM的发展趋势进行讨论和展望。
目的经颅超声成像技术作为高效率、低成本且无创的诊断手段,已逐步应用于帕金森病患者认知功能障碍诊断。由于经颅超声图像信噪比低、成像质量差、目标组织复杂且相似度高,需要依赖专业医生手动检测。但是人工检测不仅费时费力,还可能因为操作者的主观因素影响,造成检测结果出现差异性。针对这一问题,本文提出了一种基于Swin Transformer和多尺度深度特征融合的YOLO-SF-TV(YOLO network based on Swin Transformer and multi-scale deep feature fusion for third ventricle)模型用于经颅超声图像三脑室检测,以提高临床检测准确率,辅助医生进行早期诊断。方法YOLO-SF-TV模型在YOLOv8的基础上使用基于窗口注意力的Swin Transformer作为模型特征提取网络,并引入空间金字塔池化合模块SPP-FCM(spatial pyramid pooling fast incorporating CSPNet and multiple attention mechanisms)扩大网络感受野,并增强多尺度特征融合能力。在网络的多尺度特征融合部分结合深度可分离卷积和多头注意力机制,提出了PAFPN-DM(path aggregation and feature pyramid network with depthwise separable convolution)模块,并对主干特征输出层增加多头注意力机制,以提高网络对不同尺度特征图中全局和局部重要信息的理解能力。与此同时,将传统卷积替换为深度可分离卷积模块,通过对每个通道单独卷积提高网络对不同通道敏感性,以保证模型准确度的同时降低训练参数和难度,增强模型的泛化能力。结果实验在本文收集的经颅超声三脑室图像数据及对应标签的数据集下进行,并与典型的目标检测模型对比实验。结果表明,本文提出的YOLO-SF-TV在经颅超声三脑室目标上mAP能够达到98.69%,相比于YOLOv8提升了2.12%,并与其他典型模型相比检测精度达到最优。结论本文提出的YOLO-SF-TV模型在经颅超声图像三脑室检测问题上表现优秀,SPP-FCM模块和PAFPN-DM模块可以增强模型检测能力,提高模型泛化性和鲁棒性,同时本文制作的数据集将有助于推动经颅超声三脑室图像检测问题的研究。