摘要:目的焦栈图像能够扩展光学系统的景深,并为计算摄影、交互式和沉浸式媒体提供灵活的图像表达。然而,受限于光学系统的物理属性和拍摄对象的动态变化,人们往往只能拍摄稀疏的焦栈图像。因此,焦栈图像的稠密化成为当前需要解决的一个难题。为应对上述挑战,提出了一种高斯—维纳表示下的稠密焦栈图生成方法。方法焦栈图像被抽象为高斯—维纳表示,所提出的双向预测模型分别包含双向拟合模块和预测生成模块,在高斯—维纳表示模型的基础上构建双向拟合模型,求解双向预测参数并生成新的焦栈图像。首先,将稀疏焦栈序列的图像按照相同块大小进行分块,并基于此将相邻焦距、相同位置的块组合成块对,以块对为最小单元进行双向预测。其次,在双向预测模块中,块对将用于拟合出最佳双向拟合参数,并基于此求解出预测生成参数,生成新的焦栈图像块。最后,将所有预测生成得到的块进行拼接,得到新的焦栈图像。结果在11组稀疏焦栈图像序列上进行实验,所采用评价指标包括峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structure similarity index measure,SSIM)。11个序列生成结果的平均PSNR为40.861 dB,平均SSIM为0.976。相比于广义高斯和空间坐标两个对比方法,PSNR分别提升了6.503 dB和6.467 dB,SSIM分别提升了0.057和0.092。各序列均值PSNR和SSIM最少提升了3.474 dB和0.012。结论实验结果表明,所提出的双向预测方法可以较好地生成新的焦栈图像,能够在多种以景深为导向的视觉应用中发挥关键作用。
摘要:目的现有表情识别方法聚焦提升模型的整体识别准确率,对方法的头部姿态鲁棒性研究不充分。在实际应用中,人的头部姿态往往变化多样,影响表情识别效果,因此研究头部姿态对表情识别的影响,并提升模型在该方面的鲁棒性显得尤为重要。为此,在深入分析头部姿态对表情识别影响的基础上,提出一种能够基于无标签非正脸表情数据提升模型头部姿态鲁棒性的半监督表情识别方法。方法首先按头部姿态对典型表情识别数据集AffectNet重新划分,构建了AffectNet-Yaw数据集,支持在不同角度上进行模型精度测试,提升了模型对比公平性。其次,提出一种基于双一致性约束的半监督表情识别方法(dual-consistency semi-supervised learning for facial expression recognition,DCSSL),利用空间一致性模块对翻转前后人脸图像的类别激活一致性进行空间约束,使模型训练时更关注面部表情关键区域特征;利用语义一致性模块通过非对称数据增强和自学式学习方法不断地筛选高质量非正脸数据用于模型优化。在无需对非正脸表情数据人工标注的情况下,方法直接从有标签正脸数据和无标签非正脸数据中学习。最后,联合优化了交叉熵损失、空间一致性约束损失和语义一致性约束损失函数,以确保有监督学习和半监督学习之间的平衡。结果实验结果表明,头部姿态对自然场景表情识别有显著影响;提出AffectNet-Yaw具有更均衡的头部姿态分布,有效促进了对这种影响的全面评估;DCSSL方法结合空间一致性和语义一致性约束充分利用无标签非正脸表情数据,显著提高了模型在头部姿态变化下的鲁棒性,较MA-NET(multi-scale and local attention network)和EfficientFace全监督方法,平均表情识别精度分别提升了5.40%和17.01%。结论本文提出的双一致性半监督方法能充分利用正脸和非正脸数据,显著提升了模型在头部姿态变化下的表情识别精度;新数据集有效支撑了对头部姿态对表情识别影响的全面评估。
摘要:目的工业缺陷检测是现代工业质量控制中至关重要的一环,针对工业多模态缺陷检测场景下,捕捉不同形状大小、在RGB图像上感知度低的缺陷,以及减少单模态原始特征空间内存在的噪声对多模态信息交互的干扰的挑战,提出了一种基于归一化流的多模态多尺度缺陷检测方法。方法首先,使用Vision Transformer和Point Transformer对RGB图像和3D点云两个模态的信息提取第1、3、11块的特征构建特征金字塔,保留低层次特征的空间信息助力缺陷定位任务,并提高模型对不同形状大小缺陷的鲁棒性;其次,为了简化多模态交互,使用过点特征对齐算法将3D点云特征对齐至RGB图像所在平面,通过构建对比学习矩阵的方式实现无监督多模态特征融合,促进不同模态之间信息的交互;此外,通过设计代理任务的方式将信息瓶颈机制扩展至无监督,并在尽可能保留原始信息的同时,减少噪声干扰得到更充分有力的多模态表示;最后,使用多尺度归一化流结构捕捉不同尺度的特征信息,实现不同尺度特征之间的交互。结果本文方法在MVTec-3D AD数据集上进行性能评估,实验结果显示Detection AUCROC(area under the curve of the receiver operating characteristic)指标达到93.3%,Segmentation AUPRO(area under the precision-recall overlap)指标达到96.1%,Segmentation AUCROC指标达到98.8%,优于大多数现有的多模态缺陷检测方法。结论本文方法对于不同形状大小、在RGB图像上感知度低的缺陷有较好的检测效果,不但减少了原始特征空间内噪声对多模态表示的影响,并且对不同形状大小的缺陷具有一定的泛化能力,较好地满足了现代工业对于缺陷检测的要求。
摘要:目的跨域少样本学习的主要挑战在于,很难将源域的知识推广到未知的目标域中。最近的一些少样本学习模型试图通过在元训练过程中诱导图像多样化来解决这一问题。然而,其中一些模拟未知领域任务的方法效果有限,因为它们不能有效地模拟领域偏移,其生成的内容变化范围狭窄,难以从域偏移中学习到有效的域不变知识。为了提升少样本模型的跨域泛化能力,提出了一个基于不确定性增强的域感知网络(uncertainty enhancement based domain-aware network,UEDA)。方法基于不确定性增强的域感知框架从特征通道视角探索和提取其中可用于缓解领域偏移的关键知识。首先提出一个不确定性特征增强方法,将特征的充分统计定值定义为服从高斯分布的概率表示,以源域充分统计量为分布中心建模不确定性分布。随后,从不确定性分布中生成有别于加性扰动的挑战性特征,从而挖掘不同域之间的共性知识;其次,提出了基于不确定性增强的域感知方法,将源特征和生成特征视为来自不同领域的信息,利用域鉴别器计算特征通道与领域信息的相关性,从而帮助模型挖掘领域之间的潜在关联并鉴别出其中的域因果信息用于学习。结果实验使用Mini-ImageNet、CUB(caltech-ucsd birds)、Plantae、EuroSAT(land use and land cover classification with sentinel-2)和 Cropdiseases共5个数据集评估所提出方法的跨域泛化表现。实验遵从纯源域泛化,其中在图神经网络(graph neural network,GNN)分类框架下,以Mini-ImageNet数据集作为源域,模型在后4个目标域的1-shot和5-shot设置下其平均精度分别为59.50%、47.48%、79.04%和75.08%,表明了所提出方法能有效提高基于源域的跨域图像分类能力。结论本文所提出的基于不确定性增强的域感知网络框架使得模型在训练阶段适应各种域偏移,并从中学习到有效的可泛化知识,从而提高在少样本条件下的跨域图像分类能力。
摘要:目的结肠镜技术在结肠息肉的早期检测中至关重要,但其依赖于操作员的专业技能和主观判断,因此存在局限性。现有的结肠息肉图像分割方法通常采用额外层和显式扩展网络结构,导致模型效率较低。此外,由于息肉与其周围粘膜之间的边界不清晰,现有模型对于息肉边界的分割效果并不理想。方法提出了一种端到端的自知识蒸馏框架,专门用于结肠息肉图像分割。该框架将边界分割网络和息肉分割网络整合到一个统一的知识蒸馏框架中,以相互增强两个网络的性能。该框架采用专注于边界分割的模型作为教师网络,将息肉分割模型作为学生网络,两者共享一个特征提取模块,以促进更有效的知识传递。设计了一种反向特征融合结构,通过上采样和矩阵乘法聚合编码器深层特征,并利用反向浅层特征作为辅助信息,从而获得分割掩膜的全局映射。结果通过在CVC-ClinicDB(colonoscopy videos challenge-clinicdatabase)、CVC-ColonDB(colonoscopy videos challenge-colondatabase)、Kvasir以及HAM10000(human against machine with 10000 training images) 4个数据集上开展实验,与当前11种先进方法PraNet(parallel reverse attention network)和Polyp2Former(boundary guided network based on transformer for polyp segmentation)等进行比较,实验结果表明本文模型表现最佳,Dice相似性系数(Dice similarity coefficient, DSC)和平均交并比(mean intersection over union,mIoU)指标分别比现有最优模型提升了0.45%和0.68%。结论本文模型适用于各种尺寸和形状的息肉分割,实现了准确的边界提取,并且具有推广到其他医学图像分割任务的潜力。本文代码可在https://github.com/xiaoxiaotuo/BA-KD下载。