目的经颅超声成像技术作为高效率、低成本且无创的诊断手段,已逐步应用于帕金森病患者认知功能障碍诊断。由于经颅超声图像信噪比低、成像质量差、目标组织复杂且相似度高,需要依赖专业医生手动检测。但是人工检测不仅费时费力,还可能因为操作者的主观因素影响,造成检测结果出现差异性。针对这一问题,提出了一种基于Swin Transformer和多尺度深度特征融合的YOLO-SF-TV(YOLO network based on Swin Transformer and multi-scale deep feature fusion for third ventricle)模型用于经颅超声图像三脑室检测,以提高临床检测准确率,辅助医生进行早期诊断。方法YOLO-SF-TV模型在YOLOv8的基础上使用基于窗口注意力的Swin Transformer作为模型特征提取网络,并引入空间金字塔池化合模块SPP-FCM(spatial pyramid pooling fast incorporating CSPNet and multiple attention mechanisms)扩大网络感受野,并增强多尺度特征融合能力。在网络的多尺度特征融合部分结合深度可分离卷积和多头注意力机制,提出了PAFPN-DM(path aggregation and feature pyramid network with depthwise separable convolution)模块,并对主干特征输出层增加多头注意力机制,以提高网络对不同尺度特征图中全局和局部重要信息的理解能力。同时,将传统卷积替换为深度可分离卷积模块,通过对每个通道单独卷积提高网络对不同通道的敏感性,以保证模型准确度的同时降低训练参数和难度,增强模型的泛化能力。结果在本文收集的经颅超声三脑室图像数据及对应标签的数据集上进行实验,并与典型的目标检测模型对比。实验结果表明,本文提出的YOLO-SF-TV在经颅超声三脑室目标上的平均精确度均值(mean average precision, mAP)达到98.69%,相比于YOLOv8提升了2.12%,与其他典型模型相比检测精度达到最优。结论本文提出的YOLO-SF-TV模型在经颅超声图像三脑室检测问题上表现优秀,SPP-FCM模块和PAFPN-DM模块可以增强模型检测能力,提高模型泛化性和鲁棒性。同时,本文制作的数据集将有助于推动经颅超声三脑室图像检测问题的研究。