最新刊期

  • 李相潭,高峰,孙悦,董军宇

    DOI:10.11834/jig.240360
    摘要:目的高光谱图像能提供丰富的光谱和空间信息,但常受到多种噪声的干扰,增加了其在变化检测领域应用的复杂性。为了解决上述问题,本文提出一种基于混合注意力和双向门控网络的高光谱图像变化检测方法,旨在提升变化检测的性能,从而在复杂环境和多变条件下实现更可靠的变化检测。方法本文方法通过整合局部和全局特征,改进了Transformer中的自注意力和前馈神经网络。具体而言,本文提出了混合注意力模块,采用CNN和gMLP的并行结构,分别提取图像的局部特征和全局上下文信息,有效平衡了局部细节和全局上下文的特征提取,起到抑制噪声的作用。同时,构建了双向门控网络,强化了通道和空间维度的特征提取,进一步增强了全局与局部信息的融合,实现了多时相高光谱图像特征的深度融合。结果实验在3个数据集上与主流的6种方法进行了比较,在Framland数据集中,相比于BiT模型,准确率和Kappa系数分别提高了0.34%和2.02%;在Hermiston数据集中,相比于CBANet模型,准确率和Kappa系数分别提高了1%和2.08%。同时消融实验结果证明,混合注意力模块和双向门控网络能有效融合局部与全局信息,提升变化检测的精度。结论本文方法通过高效融合局部和全局特征,显著提升了变化检测的准确性,证明了其在实际应用中的潜力。在三个高光谱数据集的大量实验结果表明,本文方法在变化检测任务中性能优异,显著优于BiT、CBANet等当前主流方法。  
    关键词:变化检测;高光谱图像;遥感技术;双向注意力;Transformer   
    33
    |
    22
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 70933463 false
    更新时间:2024-10-08
  • 周才英,占新龙,魏远旺,张先超,李永刚,王超超,叶晓朗

    DOI:10.11834/jig.240314
    摘要:本综述探讨了基于人脸视频的心率变异性(heart rate variability,HRV)估计技术,突出了其在健康监测和疾病诊断中的无创性和实时监控的优势。首先,解析了HRV的生理学基础和核心参数的定义,阐明了其在医疗保健领域的应用潜力。接着,详细介绍了人脸视频采集的技术细节、数据预处理流程,重点讨论了HRV参数估计的多种方法,包括传统信号处理技术和深度学习算法。分析表明,深度学习技术在HRV估计方面因其强大的模式识别能力,能够有效提取复杂视觉特征和处理非线性生理信号,在提高估计精度方面展现出显著优势。本综述还对比了传统方法和深度学习方法在不同应用场景中的表现,指出了各自的优势与局限性,并总结了基于人脸视频HRV估计技术的实际应用案例,如健康评估、情绪识别、精神压力评估、疲劳检测和心血管疾病早期预警等。因此,本综述提出了未来研究的方向,包括降低头部运动和环境光变化的干扰、优化模型选择及减少对训练数据的依赖等,以促进HRV估计技术的发展。本综述旨在提供基于人脸视频的HRV估计技术的全面视角,为学术界和工业界的技术创新和应用拓展提供重要参考。  
    关键词:心率变异性(HRV);人脸视频;生理监测;信号处理;深度学习   
    75
    |
    21
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 72972233 false
    更新时间:2024-09-29
  • 王义杰,龚嘉鑫,梁宗宝,崇乾鹏,程翔,徐金东

    DOI:10.11834/jig.240350
    摘要:目的在对文档进行数码成像时,墨水浓度和材质透明度等因素可能会导致文档背面内容透过纸张变得可见,从而导致数字图像中出现透射现象,影响文档图像的实际使用。针对这一现象,本文提出了一种模糊扩散模型,基于模糊逻辑的均值回归思想,不需要任何先验知识,增强扩散模型处理文档图像中随机因素的能力,不仅解决了文档图像的透射现象,而且增强了图像的视觉效果。方法本文所提方法通过均值回归随机微分方程连续添加随机噪声降低原始图像质量,将其转换为带有固定高斯噪声的透射均值状态,随后在噪声网络中引入模糊逻辑操作来推理每个像素点的隶属度关系,使模型更好地学习噪声和数据分布,在逆向过程中,通过模拟相应的逆时间随机微分方程来逐渐恢复低质量图像,获得干净的无透射图像。结果将所提算法分别在合成灰度数据集和合成彩色数据集上进行训练,并在3个合成数据集和2个真实数据集上进行测试,与现有代表性的5种方法进行了比较,所提出的方法取得了最好的视觉效果,且在一定程度上消除了原始图像中的噪声。在峰值信噪比(peak signal-to-noise ratio, PSNR)、结构相似性(Structural Similarity Index, SSIM)、学习感知图像块相似度(learned perceptual image patch similarity, LPIPS)和费雷歇初始距离(Fréchet inception distance, FID)四个评价指标上均取得了最好的结果。结论本文方法能够有效地解决不同类型文档图像中的透射现象,提高了文档图像去透射任务的准确性和效率,有望集成到各种摄像头、扫描仪等实际硬件设备。  
    关键词:扩散模型;模糊逻辑;图像复原;透射去除;随机微分方程   
    42
    |
    21
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 70934168 false
    更新时间:2024-09-18
  • 金涛,胡配雨

    DOI:10.11834/jig.240295
    摘要:目的在对公安系统网络摄像头获取的视频数据进行分析时,行人危险持刀行为的自动检测面临刀具形状、大小的多样性,以及遮挡和多目标重叠等因素导致的检测精度低、误检率高的问题。针对上述问题,本文提出了一种改进实时物体检测Transformer(real-time detection Transformer,RT-DETR)的持刀危险行为检测算法(human-knife detection Transformer,HK-DETR)。方法首先,设计了倒置残差级联模块(inverted residual cascade block,IRCB)作为主干网络中的基本块(BasicBlock),这使得网络更加轻量化,减少了计算冗余,并提高了对全局特征和长距离依赖关系的理解能力;其次,提出了跨阶并行空洞融合网络结构(cross stage partial-parallel multi-atrous convolution,CSP-PMAC),专注于多尺度特征的提取,使模型能有效识别不同大小和角度的刀具;最后,引入了Haar小波下采样(Haar wavelet-based downsampling,HWD)模块来替换原模型中的下采样操作,为多尺度特征融合提供了更丰富的信息。同时,采用了最小点距离交并比(minimum point distance based intersection over union,MPDIoU)损失函数来进一步提升检测性能。结果对比实验结果表明,与原RT-DETR算法相比,改进后的模型网络参数量下降了25%,精度、召回率、平均精度(mean average precision,mAP)分别提高了2.3%、5.5%、5.2%;与YOLOv5m、YOLOv8m和Gold-YOLO-s相比,在模型网络参数量较低的情况下mAP又分别提高了6.3%、5.2%、1.8%。结论本文提出的HK-DETR算法能够有效适应网络摄像头下多种复杂环境的持刀危险行为检测场景,相较于其他参与对比的模型,其性能优势得到了充分的展现。  
    关键词:持刀行为检测;RT-DETR;目标检测;多尺度特征融合;Transformer;危险行为检测   
    37
    |
    24
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 70933606 false
    更新时间:2024-09-18
  • 杨勇,王晓争,刘轩,黄淑英,刘紫阳,王书昭

    DOI:10.11834/jig.240410
    摘要:目的高光谱(Hyperspectral, HS)全色锐化旨在融合高空间分辨率全色(Panchromatic, PAN)图像和低空间分辨率高光谱(Low Resolution Hyperspectral, LRHS)图像,生成高空间分辨率高光谱(High Resolution Hyperspectral, HRHS)图像。现有全色锐化算法往往忽略PAN和HS图像之间的模态差异从而造成特征提取不精确,导致融合结果中存在光谱畸变和空间失真。针对这一问题,本文提出一种基于混合注意力机制的双分支U-Net(Dual-branch U-Net Based on Hybrid Attention, DUNet-HA)来实现PAN与HS图像的多尺度空间-光谱特征的提取和融合。方法网络中,混合注意力模块(Hybrid Attention Module, HAM)被设计来对网络中的每个尺度特征进行编码。在HAM中,利用通道和空间自注意力模块来增强光谱和空间特征,同时构建一个双交叉注意力模块(Double Cross Attention Module, DCAM),通过学习PAN与HS图像跨模态特征的空间-光谱依赖关系来引导两种特征的重建。与经典的混合Transformer结构相比,设计的DCAM可以通过计算与查询位置无关的交叉注意力权重来实现两种图像特征的校正,在降低模型计算量的同时,可提升网络的性能。结果在三个广泛使用的HS图像数据集上与最新的11种方法进行了比较,在Pavia center数据集中,相比性能第2的方法hyperRefiner,其峰值信噪比(Peak signal-to-noise ratio, PSNR)提升了1.10dB,光谱角制图(Spectral angle mapper, SAM)降低了0.40;在Botswana数据集中,其PSNR提升了1.29dB,SAM降低了0.14;在Chikusei数据集中,其PSNR提升了0.39dB,SAM降低了0.12。结论结果表明所提出的DUNet-HA结构能更好地融合光谱-空间信息,显著提升高光谱全色锐化结果图像的质量。  
    关键词:高光谱全色锐化;模态差异;混合注意力模块;双交叉注意力模块;Transformer;空间-光谱依赖关系   
    34
    |
    21
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 70933566 false
    更新时间:2024-09-18
  • 胡佳平,周漾

    DOI:10.11834/jig.240380
    摘要:现有的三维人脸风格化方法难以生成较大相机姿态的人脸视图,或止步于生成多角度的人脸视图,而非结构化的三维网格模型。本文提出一种基于样例的三维人脸风格化与结构化建模方法。该方法能够不仅能够合成新的全相机视角下的风格化人脸视图,还具有生成结构化的人脸三维网格模型的能力,即包括人脸三维网格以及对应的纹理贴图。具体来说,我们提出了一个两阶段的结构化三维风格人脸生成框架,主要包括三维感知人脸生成器域迁移、基于多视图约束的人脸纹理优化两个步骤。首先,我们利用二维人脸风格化数据增强策略微调三维感知生成器,然后通过一个视图对齐策略对齐基于隐式神经场的渲染视图以及基于三维网格的渲染视图,再利用多视图约束的梯度回传优化人脸模型的纹理贴图,最后通过融合多张纹理贴图得到最终的纹理贴图。结果表明,该方法能够有效构建高质量的结构化三维风格人脸模型,生成高质量的全角度风格人脸视图与纹理贴图。此外,显式构建的结构化人脸模型能够更为便捷地被用于三维人脸相关下游任务。  
    关键词:视觉内容生成;三维风格人脸生成;三维感知生成;域迁移;纹理优化   
    29
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 70933411 false
    更新时间:2024-09-18
  • 汪洋,周脚根,严俊,关佶红

    DOI:10.11834/jig.240329
    摘要:利用监控视频监测异常在社会治理中具有至关重要的地位,因此视频异常检测一直是计算机视觉领域备受关注且具有挑战性的议题。本文以深度学习的视角,对当前关键的视频异常检测方法进行了分类和综述。首先,本文全面介绍了视频异常的定义,包括异常的划定和类型分类。随后,分析了目前全监督、弱监督、无监督等方面的深度学习方法在视频异常检测领域的进展,探讨了各自的优缺点,特别针对结合大模型的最新研究进展进行了探讨。接着,本文详细介绍了常见和最新的数据集,并对它们的特点进行了比较分析和截图展示。最后,本文介绍了多种异常判定和性能评估标准,对各算法的性能表现进行了对比分析。根据这些信息,本文展望了未来数据集、评估标准以及方法研究的可能发展方向,其中特别强调了大模型在视频异常检测中的新机遇。综上,本文对于深化读者对视频异常检测领域的理解,以及指导未来的研究方向具有积极意义。  
    关键词:视频异常检测;深度学习;数据集;大模型   
    32
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 70933323 false
    更新时间:2024-09-18
  • 杨可欣,刘骊,付晓东,刘利军,彭玮

    DOI:10.11834/jig.240120
    摘要:目的针对视网膜血管图像分割中血管特征尺度多变、毛细血管细节丰富以及视杯视盘、病变等特殊区域干扰导致的表征不精确、分割误差大以及结果不准确等问题,提出一种视网膜血管图像分割的尺度特征表示学习网络,包括尺度特征表示、纹理特征增强和双重对比学习三个模块。方法首先输入视网膜图像集中的图像,通过引入空间自注意力构建尺度特征表示模块,对视网膜血管进行分层尺度表征;然后,采用上下文信息引导的纹理滤波器对血管尺度特征进行纹理特征增强;最后,通过采样血管尺度特征和纹理增强特征,并定义联合损失进行双重对比学习,优化两种特征空间中视杯视盘、病变等特殊区域的血管。结果为了验证方法的有效性,在三个具挑战性的数据集进行对比实验,结果表明,构建的视网膜血管图像分割网络有助于准确表示血管尺度特征和纹理增强特征,能够较好获得完整的视网膜毛细血管等特殊区域的血管分割结果。本文方法在DRIVE数据集中较大多数方法,Acc(Accuracy)值提高了0.67%,Sp(Specificity)值提高了0.48%;在STARE数据集中较大多数方法Se(Sensitivity)值提高了6.01%,Sp值提高了6.86%;在CHASE_DB1数据集中较大多数方法,Se值提高了1.88%,F1(F1 score)值提高了1.98%。结论本文提出的视网膜血管图像分割网络,能精准分割多尺度血管、毛细血管和特殊区域的血管,有效辅助视网膜血管疾病诊断。  
    关键词:视网膜血管图像分割;尺度特征表示;纹理特征增强;纹理滤波器;双重对比学习   
    29
    |
    23
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 69432532 false
    更新时间:2024-09-10
  • 任小龙,张飞飞,周婉婷,周玲

    DOI:10.11834/jig.240354
    摘要:目的弱监督时序动作定位仅利用视频级标注来定位动作实例的起止时间并识别其类别。目前基于视觉语言的方法利用文本提示信息来提升时序动作定位模型的性能。在视觉语言模型中,动作标签文本通常被封装为文本提示信息,按类型可分为手工类型提示(Handcrafted Prompts)和可学习类型提示(Learnable Prompts),而现有方法忽略了二者间的互补性,使得引入的文本提示信息无法充分发挥其引导作用。为此,本文提出一种多类型提示互补的弱监督时序动作定位模型(Multi-type Prompts Complementary Model for Weakly-supervised Temporal Action Location)。方法首先,设计提示交互模块,针对不同类型的文本提示信息分别与视频进行交互,并通过注意力加权,从而获得不同尺度的特征信息;其次,为了实现文本与视频对应关系的建模,本文利用一种片段级对比损失来约束文本提示信息与动作片段之间的匹配;最后,设计阈值筛选模块,将多个分类激活序列(class activation sequence,CAS)中的得分进行筛选比较,以增强动作类别的区分性。结果在三个具有代表性的数据集THUMOS-14、ActivityNet-1.2和ActivityNet-1.3上与同类方法进行比较。分别在THUMOS-14数据集中的平均精度均值(mean average precision,mAP)(0.1:0.7)和ActivityNet-1.2中mAP(0.5: 0.95)实现了39.1%和27.3%的平均性能,相比于2023年的P-MIL(Proposal-Based Multiple Instance Learning)分别提高了1.1%和1%。而ActivityNet-1.3数据集中mAP(0.5:0.95)取得了与同期工作相当的性能,平均mAP达到26.7%。结论本文所提出的时序动作定位模型,利用两种类型文本提示信息的互补性来引导模型定位,提出的阈值筛选模块可以最大化利用两种类型文本提示信息的优势,最大化其辅助作用,使定位的结果更加准确。  
    关键词:弱监督时序动作定位;视觉语言模型;手工类型提示;可学习类型提示;分类激活序列   
    16
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 69430174 false
    更新时间:2024-09-10
  • 金学鹏,高峰,石晓晨,董军宇

    DOI:10.11834/jig.240359
    摘要:目的近年来,为了突破单一传感器的技术限制并弥补单一数据源应用的局限性,多源遥感数据融合成为了遥感应用领域的研究热点。当前的高光谱图像与LiDAR(Light Detection And Ranging)/SAR(Synthetic Aperture Radar)数据融合分类方法未能充分利用高光谱图像的光谱特征以及LiDAR/SAR数据的地物结构信息。由于不同成像模态的图像在数据特性上存在本质差异,这些差异为多源图像特征的关联带来了重大挑战。尽管采用深度学习技术的一些方法在结合高光谱与LiDAR/SAR数据进行分类的任务中显示出了积极的结果,但它们在融合过程中未能充分利用多源数据中的纹理信息和几何信息。方法为了应对这一关键问题,本文提出了一种基于门控注意力聚合网络的多源遥感图像分类方法,可以更加全面地挖掘多源数据中的互补信息。首先,设计了一个门控跨模态聚合模块,利用交叉注意力特征融合将LiDAR/SAR数据中的地物精细结构信息与高光谱图像特征有机融合。然后,使用精细化的门控模块将关键的LiDAR/SAR特征集成到高光谱图像特征中,从而增强多源数据的融合效果。结果实验在Houston2013和Augsburg数据集上与主流的7种方法进行比较,在总体精度(Overall Accuracy,OA)、平均精度(Average Accuracy,AA)和卡帕系数(Kappa Coefficient,Kappa)指标上都取得了最优表现。特别是在Augsburg数据集中,本文方法在大多数类别上均取得了最佳指标。在分类的可视化结果中可以明显看出,本文所提出的分类模型在性能上具有显著优势。结论在Houston2013和Augsburg数据集上的实验结果表明,本文所提出的GCA-Net具有优异的性能,显著优于HCT(Hierarchical CNN and Transformer)、MACN(Mixing self-Attention and Convolution Network)等当前主流方法。该方法能够根据不同模态的特点充分融合不同模态的信息进行分类,为多源遥感数据的融合分类提供了理论支持。  
    关键词:高光谱图像;激光雷达;合成孔径雷达;后向散射信息;多源特征融合   
    19
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 69427873 false
    更新时间:2024-09-10
  • 张驰,李剑,王普正,石键瀚,王怀钰,王琴

    DOI:10.11834/jig.230662
    摘要:目的随着三维扫描仪以及三维点云采集技术的飞速发展,三维点云在计算机视觉、机器人导引、工业设计等方面的应用越来越广泛。但是由于传感器分辨率、扫描时间、扫描条件等限制,采集到的点云往往比较稀疏,无法满足许多应用任务的要求,因此人们一般采用上采样的方法来获取稠密点云。但是由于原始稀疏点云缺失细节信息,对单一低分辨率点云进行上采样得到的结果往往较差。方法本文首次提出了一种触觉增强的图卷积点云超分网络,其主要思想是通过动态图卷积提取触觉特征并与低分辨率点云特征进行融合,以得到更加精确的高分辨率点云。由于触觉点云相比于低分辨率点云更加密集、精确,而且比较容易获取,因而本文将其与原始稀疏点云进行融合辅助后可以获得更加准确的局部特征,从而有效提升上采样的精度。结果本文首先构建了用于点云超分的三维视触觉数据集(3D Vision and Touch, 3DVT),包含12732个样本,其中70%用于训练新模型,30%用于测试;其次,本文采用倒角距离作为评价指标对数据集进行了测试和验证。实验结果表明,不添加触觉辅助信息时,超分后点云的平均倒角距离为3.009*10-3,加入一次触觉信息融合后,平均倒角距离降低为1.931*10-3,加入两次触觉信息融合后,平均倒角距离进一步降低为1.916*10-3,从而验证了本文网络对点云超分效果的提升作用。同时,不同物体的可视化效果图也表明,加入触觉信息辅助后的上采样点云分布更加均匀,边缘更加平滑。此外,进一步的噪声实验显示,在触觉信息的辅助下,本文提出的网络对噪声具有更好的鲁棒性。在以3DVT数据集为基础的对比实验中,相比于现有最新算法,本文算法的平均倒角距离降低了19.22%,取得了最好的实验结果。结论通过使用本文提出的触觉增强的图卷积点云超分网络,借助动态图卷积提取触觉点云特征并融合低分点云,可以有效地提高超分重构后高分辨率点云的质量,并且对周围噪声具有良好的鲁棒性。  
    关键词:点云超分;触觉点云;特征提取;特征融合;动态图卷积;多模态   
    19
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 69427830 false
    更新时间:2024-09-10
  • 吴晗,胡良臣,杨影,接标,罗永龙

    DOI:10.11834/jig.240060
    摘要:目的基于深度学习的方法在3D模型分类任务中取得了先进的性能,此类方法需要提取三维模型不同数据表示的特征,例如使用深度学习模型提取多视图特征并将其组合成单一而紧凑的形状描述符。然而,这些方法只考虑了多视图之间的一致信息,而忽视了视图与视图之间存在的差异信息。为了解决这一问题,本文提出了新的特征网络学习3D模型多视图数据表示的一致信息和互补信息,并将其有效融合,以充分利用多视图数据的特征,提高3D模型分类准确率。方法该方法通过在残差网络的残差结构中引入空洞卷积,扩大卷积操作的感受野。随后,对网络结构进行调整以进行多视图特征提取。然后,通过设计的视图分类网络划分一致信息和互补信息,充分利用每个视图。为了处理这两类不同的信息,引入了一种结合注意力机制的学习融合策略,将两类特征视图融合,从而得到形状级描述符,实现可靠的3D模型分类。结果该模型的有效性在ModelNet数据集的两个子集上得到验证。在基于ModelNet40数据集的所有对比方法中具有最好的性能表现。为了对比不同的特征提取网络,设置单分类任务实现,本文方法在分类准确度和平均损失方面表现最好。相较于基准方法—多视图卷积神经网络(Multi-view Convolutional Neural Network, MVCNN),在不同视图数下本文方法的性能最高提升了3.6%,整体分类准确度提高了5.43%。结论本文提出的一种多视图信息融合的深度3D模型分类网络,深度融合多视图的一致信息和互补信息,在3D模型分类任务中获得明显的效果。并且实验结果表明,相比于现有相关方法,本文方法展现出一定的优越性。  
    关键词:多视图分类;3D模型分类;一致性与互补性;改进残差网络;视图融合   
    15
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 69427793 false
    更新时间:2024-09-10
  • 李焱,董仕豪,张家伟,赵茹,郑钰辉

    DOI:10.11834/jig.240279
    摘要:目的随着深度学习技术的发展,基于Transformer的网络架构被引入计算机视觉领域并取得了显著成效。针对在超分辨率任务中,Transformer模型存在特征提取模式单一、重建图像高频细节丢失和结构失真的问题,提出了一种融合通道注意力的跨尺度Transformer图像超分辨率重建模型。方法模型由四个模块组成:浅层特征提取、跨尺度深层特征提取、多级特征融合以及高质量重建模块。浅层特征提取利用卷积处理早期图像,获得更稳定的输出;跨尺度深层特征提取利用跨尺度Transformer和强化通道注意力机制,扩大感受野并通过加权筛选提取不同尺度特征以便融合;多级特征融合模块利用强化通道注意力机制,实现对不同尺度特征通道权重的动态调整,促进模型对丰富上下文信息的学习,增强模型在图像超分辨率重建任务中的能力。结果在Set5、Set14、BSD100、Urban100和Manga109标准数据集上的模型评估结果表明,相较于SwinIR超分辨率模型,所提模型在峰值信噪比上提高了0.06dB~0.25dB,且重建图像视觉效果更好。结论提出的融合通道注意力的跨尺度Transformer图像超分辨率重建模型,通过融合卷积特征与Transformer特征,并利用强化通道注意力机制减少图像中噪声和冗余信息,降低模型产生图像模糊失真的可能性,图像超分辨率性能有效提升,在多个公共实验数据集的测试结果验证了所提模型的有效性。  
    关键词:图像超分辨率;跨尺度Transformer;通道注意力机制;特征融合;深度学习   
    83
    |
    58
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 68494016 false
    更新时间:2024-09-03
  • 徐红鹏,刘刚,习江涛,童军

    DOI:10.11834/jig.240271
    摘要:目的针对远距离红外飞机目标检测中存在的由于成像面积小、辐射强度较弱造成无法充分提取目标特征进而影响检测性能的问题,提出一种基于全局-局部上下文自适应加权融合(Adaptive Weighted Fusion of Global-Local Context,AWFGLC)机制的红外飞机目标检测算法。方法基于全局-局部上下文自适应加权融合机制,沿着通道维度随机进行划分与重组,将输入特征图切分为两个特征图。一个特征图使用自注意力进行全局上下文建模,建立目标特征与背景特征之间的相关性,突出目标较显著的特征,使得检测算法更好地感知目标的全局特征。对另一特征图进行窗口划分并在每个窗口内进行最大池化和平均池化以突出目标局部特征,随后使用自注意力对池化特征图进行局部上下文建模,建立目标与其周围邻域的相关性,进一步增强目标特征较弱部分,使得检测算法更好地感知目标的局部特征。根据目标特点,利用可学习参数的自适应加权融合策略将全局上下文和局部上下文特征图进行聚合,得到包含较完整目标信息的特征图,增强检测算法对目标与背景的判别能力。结果将全局-局部上下文自适应加权融合机制引入YOLOv7并对红外飞机目标进行检测,实验结果表明,提出算法在自制和公开红外飞机数据集的mAP50分别达到97.8%、88.7%,mAP50:95分别达到65.7%、61.2%。结论本文所提出的红外飞机检测算法,优于经典的目标检测算法,能够有效实现红外飞机目标检测。  
    关键词:红外飞机;目标检测;全局上下文;局部上下文;自适应加权   
    44
    |
    58
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 68493923 false
    更新时间:2024-09-03
  • 王健宇,朱枫,郝颖明,王群,赵鹏飞,孙海波

    DOI:10.11834/jig.240319
    摘要:目标检测是计算机视觉领域的基础研究方向之一。由于图像采集时物体摆放密集,光照条件差等因素会导致图像失去细节,当使用此类图像作为输入时,常规的目标检测算法对目标物的检测结果无法满足任务需求。为了解决这类问题,面向目标检测的视点规划这一智能感知方法应运而生,其可自主分析当前条件下影响检测任务的因素,调整相机的位姿参数规避影响,实现目标物准确检测。 面向目标检测的视点规划方法不仅可以辅助计算机视觉的其他领域,也会为未来的智能化生活提供便利。为了反映其研究现状和最新进展,本文梳理了2007年以来的文献,对国内外的研究方法做出概括性总结。首先,以算法应用的场景维度和调整参数作为分类依据,我们将面向目标检测的视点规划方法分为二维像素调整的规划方法,三维空间移动的规划方法以及两者结合的规划方法三类,本文重点对前两类方法进行分析与总结。其次,解析每类方法的基本思想,并指出各类方法需解决的关键问题,然后对解决问题的主要研究方法进行归纳和分析,并总结各自的优点和局限性。除此之外,本文也对各类场景下可使用的数据集和评价指标进行简要介绍。最后,在目前方法的分析基础上,探讨面向目标检测的视点规划领域所面临的挑战,并对未来研究方法进行展望。  
    关键词:目标检测;主动视觉;参数调整;视点规划;智能感知   
    39
    |
    37
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 68493870 false
    更新时间:2024-09-03
  • 冯展祥,赖剑煌,袁藏,黄宇立,赖培杰

    DOI:10.11834/jig.240426
    摘要:行人重识别旨在对没有视野重叠覆盖的视域拍摄的行人目标进行身份匹配,是计算机视觉的研究热点,在安防监控场景有重要的研究意义和广阔的应用前景。受限于标注成本过高,行人数据集规模较小,当前行人重识别模型性能还达不到应用的水平,通用行人重识别技术还任重道远。近年来,预训练大模型引发了广泛的关注,获得了快速的发展,其核心技术在行人重识别领域获得了越来越多的应用。本文对预训练大模型技术在行人重识别的应用进行了全面的梳理回顾。首先介绍本领域的研究背景,从行人重识别的研究现状和面对的困难出发,简要阐述了预训练技术和预训练大模型的相关技术,分析预训练大模型技术在行人重识别的研究意义和应用前景。在此基础上,对基于预训练大模型的行人重识别研究进行了详细的介绍,将已有研究分为大规模自监督预训练行人重识别、预训练大模型引导的行人重识别和基于提示学习的行人重识别三类,并在多个数据集对前沿算法的效果和性能进行对比。最后,对该任务进行了总结,分析当前研究的局限,并展望未来研究的方向。整体而言,预训练大模型技术是实现通用行人重识别不可或缺的技术,当前研究还处于探索阶段,行人重识别与预训练大模型技术的结合还不够紧密,如何结合行人先验和预训练大模型技术实现通用行人重识别需要学术界和工业界共同思考和推动。  
    关键词:行人重识别;深度学习;自监督预训练;大模型;提示学习   
    114
    |
    96
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 67910761 false
    更新时间:2024-08-21
  • 吴萌,郭歌,孙增国,路智勇,张倩文

    DOI:10.11834/jig.240277
    摘要:目的墓室壁画作为地下文物,由于环境湿度、地仗沉降等因素,局部区域出现了脱落、裂缝、霉变等多种病害,导致画面部分缺失。但现有深度学习的修复方法通常在单一维度或固定区域进行信息重建,无法充分捕获稀疏的壁画特征和修复多样化的复杂病害,修复时会出现内容缺失、结构错乱等问题。对此,本文提出了一种自适应卷积约束与全局上下文推理的墓室壁画修复。方法该方法基于端到端的编码器-解码器架构,首先设计多尺度增强卷积模块从频域和空域联合分析图像特性来充分捕获全局结构和局部纹理;同时在修复路径中加入融合差分卷积的增强激活单元来引入边缘先验信息,提高模型的绘制精度。其次,考虑到纹理和结构在绘制过程中的模式差异,在编码器-解码器间设计基于注意力交互引导的多尺度特征聚合模块,来加强全局稀疏信息的表征能力和相关性,并自适应选择增强有效特征。此外,为了获得真实准确的结果,在特征传递过程中利用自动掩码更新迭代来预测复杂缺失信息,引导解码器精确绘制多样化的损伤区域。结果本文采用客观评价指标:峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity index,SSIM)、学习感知图像块相似度(learned perceptual image patch similarity,LPIPS)在章怀太子墓“马球图”数据集上进行三类模拟病害和真实病害修复实验,并与最新的6种主流方法进行了比较。实验结果表明本文方法修复的壁画图像在主观视觉和客观评价上均有明显的提升。如相较于指标排名第二的模型,对于随机缺失区域的壁画修复,峰值信噪比和结构相似性的均值分别达到31.7602dB和0.9577,各指标的样本均值分别提升了2.3653dB,0.0128,12.75%。结论本文提出的图像修复模型可以有效修复多种复杂病害,可为手工绘制专家的物理修复提供参考,这进一步表明了该方法在保护和传承数字文化遗产的有效性和适用性。  
    关键词:壁画修复;多尺度增强卷积模块;多尺度特征聚合模块;增强激活单元;差分卷积;病害修复   
    43
    |
    59
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 67576748 false
    更新时间:2024-08-15
  • 王仁芳,杨梓健,邱虹,王峰,高广,吴敦

    DOI:10.11834/jig.240280
    摘要:目的利用深度学习开展变化检测是遥感智能解译热点研究方向之一。针对基于Transformer变化检测模型结构复杂、参数过多、训练耗时的问题,本文设计了一种融合特征交互和融合的轻量级变化检测网络。方法提出了一种融合特征交互和融合的轻量级变化检测网络(feature interaction and fusion lightweight network, FIFLNet)。解码器中采用EfficientNet作为特征提取网络,其能利用模型的放缩(model scaling)能力来扩大模型的感受野。然后通过设计通道、像素交互模块(spatial and channel interact block)和浅层跳跃连接(low-level skip-connection)来实现浅层双时相的细节特征交互和上采样阶段的传递,以此增加模型对局部特征的判别精度。此外,利用特征融合分组卷积模块(feature fusion and groups convolution block,FFGCB)对双时相数据进行降维融合,来降低模型计算量。最后,设计了融合上采样模块(fusion upsampling block,FUB)对局部特征与全局特征进行融合还原,同时利用局部特征的细节、纹理来补偿全局特征细节的缺失。结果本文方法在两个遥感影像数据集(LEVIR-CD和SYSU-CD)上与13种SOTA(state-of-the-art)方法进行比较。客观上,本文方法对比现有变化检测方法在各项定量评价指标上均具有明显优势。在LEVIR-CD和SYSU-CD数据集中,本文方法F1分别取得91.51%和82.19%,相较于对比方法的最优值分别提升了0.43%和1.58%,并且模型的每秒浮点运算量和参数量分别为1.66G和0.56M,低于所有对比方法。主观上,本文方法相对于对比方法的检测区域准确、漏检率低,具有丰富的细节。结论本文提出的轻量级变化检测网络FIFLNet以较少的参数量和每秒浮点运算量获得了优越的性能,改善了小目标漏检、边界误检的情况,能够获得高质量的变化检测结果。  
    关键词:遥感影像;变化检测;局部特征;特征交互;轻量级网络   
    63
    |
    70
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 67575687 false
    更新时间:2024-08-15
  • 陈振宇,殷赵霞,占鸿渐,吕淑静,胡孟晗

    DOI:10.11834/jig.240287
    摘要:目的密文图像可逆信息隐藏技术旨在将信息嵌入至加密图像,以确保信息和原始图像能够准确提取和无损恢复。针对密文图像可逆信息隐藏嵌入率不高的问题,通过增加编码的信息运载效率与利用相邻像素相关性,提出了一种位平面隐含异位联合编码的密文图像可逆信息隐藏方案。方法首先,图像所有者将原始图像分成大小相等的块,并计算出原始图像像素的预测误差。然后,对预测误差的八个位平面进行重排。在位平面压缩阶段,运用隐含异位的联合编码方法进行压缩。压缩后,各类辅助信息被放置到多个高位平面并加密,在多个低位平面上预留空间,结束后进行图像混洗。信息隐藏者将信息嵌入到混洗图像的预留空间中。最后,图像接收者使用密钥提取嵌入的信息或无损恢复原始图像。结果实验结果表明,所提算法在两个常用数据集BOSSBase和BOWS2上的平均嵌入率分别为3.818 3bpp和3.694 3bpp,在同类算法中表现优异。结论所提算法更好地利用原始图像相邻像素间的相关性解决了实际应用中连续比特流串长度较短、数量较多带来的压缩率损失问题,从而提升了嵌入率。  
    关键词:密文图像可逆信息隐藏;隐含异位压缩;联合编码;预测误差;位平面;嵌入率   
    18
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 67575649 false
    更新时间:2024-08-15
  • 谢斌,黎彦先,邵祥,戴邦强

    DOI:10.11834/jig.240315
    摘要:目的针对传统基于深度学习的去模糊方法存在的伪影明显、细节模糊和噪声残留等问题,文中提出了一种基于提示学习的多尺度图像去模糊新方法。方法首先,在详细地分析了传统去模糊方法的基础上,文中引入了基于提示学习的特定退化信息编码模块,利用退化信息中包含的上下文信息来动态地引导深度网络以更有效地完成去模糊任务。其次,设计了新的门控前馈网络,通过控制各个层级的信息流动构建更为丰富和更具层次结构的特征表示,从而进一步提高对复杂数据的理解和处理能力,以更好地保持结果图像的几何结构。另外,新方法引入了经典的总变差正则来抑制去模糊过程中的噪声残留,以提高结果图像的视觉表现。结果大量基于GoPro和REDS数据集的实验结果表明,与其他先进的基于深度学习的去模糊方法相比,文中所提新方法在图像去模糊方面取得了更好的效果。在峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity, SSIM)指标上,文中提出的新方法在GoPro数据集上分别达到了33.04dB和0.962的最优结果。在REDS数据集上分别达到了28.70dB和0.859的结果,并且,相比SAM-deblur(segment anything model-deblur)方法,PSNR提升了1.77dB。结论相较于其他的去模糊方法,文中所提出的新方法不仅能够较好的保持结果图像的细节信息,而且还能够有效地克服伪影明显和噪声残留的问题,所得结果图像在PSNR和SSIM等客观评价指标方面均有更好的表现。  
    关键词:图像去模糊;提示学习;多尺度;门控前馈网络;深度卷积   
    31
    |
    16
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 67575247 false
    更新时间:2024-08-15
0