目的现有360°全景图像显著目标检测方法一定程度上解决了360°全景图像投影后的几何畸变问题,但是这些方法面对复杂场景或是前景与背景对比度较低的场景时,容易受到背景干扰,导致检测效果不佳。为了同时解决几何畸变和背景干扰,本文提出了一种畸变自适应与位置感知的360°全景图像显著目标检测网络(distortion-adaptive and position-aware network,DPNet)。方法提出了两个对畸变和位置敏感的自适应检测模块:畸变自适应模块(distortion-adaptive module,DAM)和位置感知模块(position-aware module,PAM)。它们可以帮助模型根据等矩形投影的特点和具体图像来决定该关注图像的哪些区域。在此基础上,本文进一步提出了一个显著信息增强模块(salient information enhancement module,SIEM),该模块用高级特征来指导低级特征,过滤其中的非显著信息,防止背景干扰对360°显著目标检测效果的影响。结果实验在2个公开数据集(360-SOD,360-SSOD)上与最新的13种方法进行了客观指标和主观结果的比较,在8个评价指标上的综合性能优于最新的13种方法。并且本文还设置了泛化性实验,采用交叉验证的方式证明了本文模型优秀的泛化性能。结论本文所提出的360°全景图像显著目标检测模型DPNet,同时考虑了360°全景图像投影后的几何畸变问题和复杂场景下的背景干扰问题,能够有效地、完全自适应地检测显著目标。
目的谎言检测通过分析个体的生理行为特征来识别其是否说谎,在刑侦和安全审查等领域具有重要应用。然而,目前缺乏公开的中文测谎数据集,考虑到语言和文化方面的差异,基于英文数据集研发的算法可能难以适用于中文语境。此外,现有数据集样本规模有限,在激发被试说谎动机方面存在不足。针对这些问题,构建了首个公开的中文多模态测谎数据集(Southeast University multimodal lie detection dataset,SEUMLD)。方法实验基于犯罪知识测试范式,设计了模拟犯罪和模拟审讯等流程以激发被试的说谎动机。通过记录被试在模拟审讯过程中的多模态信号,SEUMLD包含了长期生活在中文语境下的76位被试的视频、音频以及心电三种模态数据,共计3224段对话。该数据集不仅提供了用于判断被试是否说谎的长会话标注(粗粒度标注),还提供了每段长会话细化分割的精准标注(细粒度标注)。基于SEUMLD,设计了跨语种实验以验证语言文化差异对说谎行为的影响;通过迁移学习实验评估其在提升模型泛化能力上的性能;最后基于经典谎言检测方法对SEUMLD进行了基准实验。结果跨语种测谎实验在中英文语境下表现出了显著差异。迁移学习实验验证了SEUMLD在提升模型泛化能力上的优异表现。基准实验结果显示,基于单模态的粗粒度和细粒度测谎的最佳未加权平均召回率(unweighted average recall,UAR)识别结果分别为0.7576和0.7096;融合了多模态信息后的测谎性能达到最佳,在粗粒度检测和细粒度测谎的识别结果分别为0.8083和0.7379。结论SEUMLD为研究中文语境下的多模态测谎提供了重要的数据来源,对未来研究中文母语者的说谎模式具有重要意义。数据集开源地址:https://aip.seu.edu.cn/2024/1219/c54084a515309/page.htm。
目的图像复原是计算机视觉领域的经典研究问题。选择性状态空间模型(Selective State Space Models, SSMs)因其高效的序列建模能力,被广泛应用于各类图像复原任务。另一方面,非局部图像块之间存在依赖关系,能够辅助提升复原性能。然而,传统SSMs采用确定性的令牌(Token)扫描方式,仅能提取令牌序列的单向依赖关系。此时,令牌间的关系建模因在序列中的先后顺序受到因果性制约,这与图像块之间的非因果相互关系形成冲突,限制了复原性能的进一步提升。针对此问题,提出一种面向图像复原的非因果选择性状态空间模型,旨在赋予SSMs建模令牌之间非因果依赖关系的能力。方法为解决SSMs在因果性建模与图像内容非因果关系之间的矛盾,提出了随机扫描策略,突破了传统扫描方式在因果性和空间限制上的局限,实现了令牌序列之间的非因果建模。具体而言,构建了随机重排和逆重排函数,实现了非固定次序下的令牌扫描,有效建模了不同令牌之间的非因果依赖关系。此外,针对图像退化干扰存在空间尺度变化和形态结构复杂的特点,融合多尺度先验构建了具有局部与全局信息互补性的非因果Mamba模型(Non-Causal Mamba, NCMamba),实现了对于各类图像复原任务的有效适配。结果实验分别在图像去噪、去模糊和去阴影任务上进行,验证了所提非因果建模和局部-全局互补策略的有效性。例如,与现有方法相比,所提模型在图像去阴影数据集SRD上的峰值信噪比提升了0.86 dB。结论面向图像复原任务,构建了非因果选择性状态空间模型,建模了令牌之间的非因果依赖关系,实现了局部与全局信息的有效互补,显著提升了复原性能。实验结果表明,所提方法在主客观评价指标上均取得优异性能,为图像复原领域提供了新的解决方案。