目的焦栈图像能够扩展光学系统的景深,并为计算摄影、交互式和沉浸式媒体提供灵活的图像表达。然而,受限于光学系统的物理属性和拍摄对象的动态变化,人们往往只能拍摄稀疏的焦栈图像。因此,焦栈图像的稠密化成为当前需要解决的一个难题。为应对上述挑战,提出了一种高斯—维纳表示下的稠密焦栈图生成方法。方法焦栈图像被抽象为高斯—维纳表示,所提出的双向预测模型分别包含双向拟合模块和预测生成模块,在高斯—维纳表示模型的基础上构建双向拟合模型,求解双向预测参数并生成新的焦栈图像。首先,将稀疏焦栈序列的图像按照相同块大小进行分块,并基于此将相邻焦距、相同位置的块组合成块对,以块对为最小单元进行双向预测。其次,在双向预测模块中,块对将用于拟合出最佳双向拟合参数,并基于此求解出预测生成参数,生成新的焦栈图像块。最后,将所有预测生成得到的块进行拼接,得到新的焦栈图像。结果在11组稀疏焦栈图像序列上进行实验,所采用评价指标包括峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structure similarity index measure,SSIM)。11个序列生成结果的平均PSNR为40.861 dB,平均SSIM为0.976。相比于广义高斯和空间坐标两个对比方法,PSNR分别提升了6.503 dB和6.467 dB,SSIM分别提升了0.057和0.092。各序列均值PSNR和SSIM最少提升了3.474 dB和0.012。结论实验结果表明,所提出的双向预测方法可以较好地生成新的焦栈图像,能够在多种以景深为导向的视觉应用中发挥关键作用。
目的分割一切模型(Segment Anything Model,SAM)在自然图像分割领域已取得显著成就,但其应用于医学成像尤其是涉及对比度低、边界模糊、形状复杂的超声图像时,分割过程往往需要人工干预,并且会出现分割性能下降的情况。针对上述问题,提出一种结合反事实提示与级联解码SAM的改进方法(SAM combined with Counterfactual prompt and cascaded Decoder,SAMCD)。方法SAMCD在SAM的基础上增加旁路CNN图像编码器、跨分支交互适配器、提示生成器和级联解码器。首先,通过使用旁路CNN编码器以及所设计的跨分支交互适配器,补充ViT编码器缺乏的局部信息,以提高模型对细节的捕捉能力;然后,引入因果学习的反事实干预机制,通过生成反事实提示,迫使模型专注于事实提示生成,提高模型分割精度;其次,采用所提出的级联解码器获得丰富的边缘信息,即先利用SAM的原始解码器创建先验掩码,再使用加入边界注意力的Transformer解码器和像素解码器;最后,在训练模型时采用两阶段的训练策略,即交互分割模型训练阶段和自动分割模型训练阶段。结果在TN3K和BUSI这2个数据集上进行实验,SAMCD的DSC值分别达到83.66%和84.29%,较SAMCT提升0.73、0.90个百分点,且较对比的SAM及其变体模型更为轻量化;相较于9种先进方法,SAMCD在DSC、mIoU、HD、敏感性和特异性指标上均达到最优。消融实验和可视化分析表明提出的SAMCD方法具有明显的提升效果。结论本文提出的超声医学图像分割SAMCD方法在充分利用SAM强大的特征表达能力的基础上,通过对编码器、提示生成器、解码器和训练策略的改进,能够精准地捕获超声图像中的复杂局部细节和小目标,提高超声医学图像自动分割效果。
目的光场图像因其能够捕捉不同深度的场景细节信息,因而可以有效提升显著性检测的效果。然而,焦点堆栈图像虽然富含深度信息,但不同焦平面中存在的模糊干扰会降低光场显著性检测的性能。此外,现有的大多数方法都仅在显著性预测阶段考虑不同图像特征的交互,导致不同特征的互补性利用不足。为了解决以上两个问题,本文提出了一种融合多阶段差分特征的光场图像显著性检测网络,旨在提高光场图像中显著物体检测的准确性。方法首先,提出一种基于多阶段自差分特征的焦点堆栈深度感知方法,以连续深度聚焦信息指导显著目标定位。接着,提出一种多模态阶段融合方法,通过多模态差异约束捕获高精度的焦点堆栈聚焦区域,以实现焦点堆栈图像与全聚焦图像的多阶段特征融合,并利用焦点堆栈深度感知方法和多模态阶段融合方法的互补信息增强目标物体的可识别性。同时,将两种方法引入编码阶段,实现特征的早期交互,缓解了特征利用率低的问题。结果实验在广泛运用的DUTLF-FS(Dalian University of Technology Light Field Focal Stack)、HFUT-Lytro(Hefei University of Technology Lytro)和Lytro Illum数据集上与最新的11种方法进行比较。在DUTLF-FS数据集中,相比于先进的FESNet模型,在不额外引入深度图线索的前提下,最大F指标相对提升0.2%;在HFUT-Lytro数据集中,相比于FESNet模型,平均绝对误差相对降低12.9%;在Lytro Illum数据集中,相比于当前最好的方法,平均绝对误差相对降低22.2%。消融实验进一步证实了所设计的模块的有效性。结论本文提出的显著性检测模型能有效增强复杂场景中的显著区域特征,并抑制背景区域,能够准确地识别显著目标。
目的随着视觉大模型的发展,利用多源无标注遥感影像预训练学习全局视觉特征,并在局部目标任务上进行迁移微调,已成为遥感影像领域自适应的一种新范式。然而,现有的全局预训练策略主要聚焦于学习低级的通用视觉特征,难以捕捉复杂、高层次的语义关联。此外,微调过程中使用的少量标注样本往往只反映目标域的特定场景,无法充分激活全局模型中与目标域匹配的领域知识。因此,面对复杂多变的遥感影像跨时空领域偏移,现有方法得到的全局模型与目标任务之间仍然存在巨大的语义鸿沟。为应对这一挑战,本文提出了一种语言文本引导的“全局模型预训练-局部模型微调”的领域自适应框架。方法提出框架针对遥感数据的时空异质性特点,借助大型视觉语言助手LLaVA(large language and vision assistant)生成包含季节、地理区域及地物分布等时空信息的遥感影像文本描述。通过语言文本引导的学习帮助全局模型挖掘地物的时空分布规律,增强局部任务微调时相关领域知识的激活。结果在对比判别式、掩码生成式和扩散生成式三种不同全局预训练策略上设置了三组“全局-局部”跨时空领域自适应语义分割实验来验证提出框架的有效性。以全局→局部(长沙)为例,使用语言文本引导相比于无文本引导在三种不同预训练策略上分别提升了8.7%、4.4%和2.9%。同样,提出框架在全局→局部(湘潭)和全局→局部(武汉)上也都有性能提升。结论证明了语言文本对准确理解跨时空遥感影像中的语义内容具有积极影响。与无文本引导的学习方法相比,提出框架显著提升了模型的迁移性能。