最新刊期

    张泷丹, 李雯, 魏东岩, 马朝伟, 李政祎, 申戈

    DOI:10.11834/jig.250009
    img
    摘要:目的视觉匹配导航需要预先构建场景三维点云信息,相较于传统软件和专业仪器测图建模,基于消费级终端的视频流数据视觉建模具有成本低、数据更新方便和空间覆盖广等优势,但视频帧因数量庞大存在图像冗余,而造成三维模型重建计算代价高、累计误差较大甚至重建失败的问题,因此本文提出一种基于互校验加权光流的三维重建关键帧提取方法。方法首先,利用传感器陀螺仪数据对视频流中的图像进行场景预分类;然后,采用SIFT(Scale Invariant Feature Transform)算法检测图像特征点和描述符,并结合FLANN(Fast Library for Approximate Nearest Neighbors)匹配和金字塔LK(Lucas-Kanade)光流算法,捕捉相邻帧的动态变化,提取两种算法同时检测成功的特征点并计算欧氏距离,筛选出相邻帧强匹配点对;最后,基于场景预分类结果,对图像消失点附近的强匹配点对,在直线道路采取高斯加权,在转弯道路采取均匀加权,计算帧间光流场总运动从而获取相似度,最终实现视频关键帧提取。结果实验利用消费级终端自采集4组不同场景数据,将本文算法与传统关键帧提取算法进行对比,统计提取关键帧数量并利用结构相似性指数计算高相似度帧数量,将直线和转弯道路提取结果与原视频帧分别进行对比,最后进行三维模型重建实验从而评估提取效果。实验结果表明,本文算法可以将视频帧总数量降低到10%左右,其中高相似度帧数量明显少于其他算法;相较于直线道路,在转弯处关键帧数量占比较大,符合三维重建预期需求;最终模型重建完整度在4组数据上分别为100%、100%、97.46%和96.54%,优于其他算法。结论本文提出基于互校验加权光流的三维重建关键帧提取方法能有效降低视频帧数量,筛选的关键帧能够提高相邻帧匹配精度和稳定性,增强在多样化场景下三维重建的鲁棒性。  
    关键词:视频流;关键帧;图像相似度;互校验加权光流;三维重建   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521511 false
    更新时间:2025-03-13

    杨主伦, 刘烨斌, 举雅琨, 刘琼, 李旭涛, 尹亚光, 杨铀, 刘文予

    DOI:10.11834/jig.240772
    img
    摘要:在计算成像领域中,场景重光照是一项用于调整和编辑给定图像中光照属性的技术,以呈现与指定光照条件一致且趋近于真实的重光照图像。近年来,场景重光照任务作为元宇宙与虚拟现实应用中的重要组成部分备受学术界和工业界关注,在数码摄像、曝光纠正和影视后期处理等领域都具有重要的应用价值。然而,基于人工的场景重新照明流程通常费时费力,既需要影视特效师手动提取准确的前景图像,还需要精心处理图像中的光影信息、边缘细节以及场景各物体之间的交互关系进行调整,以获得与给定虚拟光照环境相融合的真实效果。近年来,随着机器视觉技术和计算机图形学的发展,利用算法实现场景重照的方法开始取代人工,以其重渲染的精度和效率吸引包括影视制作在内的许多行业的目光。并且同传统成像模型、光照模型、三维重建与深度学习等结合之后,相关技术在场景重光照的真实性与可控性等方面取得了显著进步。鉴于国内外鲜有关于场景重光照任务的研究综述,本文对场景重光照方法进行了系统梳理和评述。根据场景重光照研究中各个环节的特点,将现有的研究工作按照流程分为光照解耦、本征分解和重渲染三个过程:光照解耦从原图像中提取环境光照信息并予以本征表达,不仅为后续过程提供了光照信息,而且提升了本征分解过程中对于光照不变特征图像的分解效率与估计精度;本征分解过程则旨在利用解耦得到的光照信息从原图像中获取场景的表面几何属性与纹理属性;最终的重渲染方法根据给定的目标光照信息与分解得到的表面属性实现对场景的重渲染,使得输出图像的光照属性符合期望光影效果。在剖析上述过程的核心原理与特点的基础上,着重分类讨论典型算法的优势与不足;为方便研究人员开展进一步的工作,介绍了场景重光照任务中常用数据集种类以及相关采集设备;最后,总结了该领域研究面临的主要问题和挑战,并展望了未来潜在的研究方向。  
    关键词:计算成像;场景重光照;光照解耦;本征分解;渲染技术   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521423 false
    更新时间:2025-03-13

    利铭康, 柳薇, 陈卫东

    DOI:10.11834/jig.240659
    img
    摘要:目的纯Transformer神经网络在图像去噪上效果显著,但要进一步提升去噪质量,需要增加大量的训练和预测资源;另外,原始Swin Transformer对高分辨率图片输入缺少良好的适应性。对此,设计了一种基于Swin Transformer V2的U-Net图像去噪深度学习网络。方法该网络在下采样阶段设计了一种包括Swin Transformer V2和卷积并行提取特征的Transformer块,然后在上采样阶段设计了一种特征融合机制来提升网络的特征学习能力。针对图像去噪任务对Transformer块修改了归一化位置及采用镜像填充机制,提高Swin Transformer V2块的适应性。结果在CBSD68(Color Berkeley Segmentation Dataset)、Kodak24、McMaster和彩色Urban100四个图像去噪常用测试集上进行去噪实验,选择峰值信噪比(peak signal-to-noise ratio, PSNR)作为去噪效果的评价指标,在噪声等级为50的去噪实验中,得到的平均PSNR值分别为28.59、29.87、30.27、29.88,并与几种流行的基于卷积和基于Transformer的去噪方法进行比较。本文的去噪算法优于基于卷积的去噪方法,而相比于性能接近的基于Transformer方法,本文的去噪算法所需浮点运算量仅为26.12%。结论本文所提方法使用的Swin Transformer V2和特征融合机制均可以有效提升图像去噪效果。与现有方法相比,本文方法在保证或提升图像去噪效果的前提下,大幅度降低了训练和预测所需要的计算资源。  
    关键词:深度学习;图像去噪;Swin Transformer;U-Net;特征融合   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521395 false
    更新时间:2025-03-13

    赵思成, 丰一帆, 张知诚, 孙斌, 张盛平, 高跃, 杨巨峰, 刘敏, 姚鸿勋, 王耀南

    DOI:10.11834/jig.240780
    img
    摘要:情智兼备数字人与机器人技术旨在开发具备情感理解和个性化响应能力的智能系统,这一方向逐渐成为学术界和社会各界的研究焦点。本文围绕脑认知驱动的情感机理、多模态情智大模型的融合与解译、个性化情感表征与动态计算以及可交互情绪化内容生成调控等四个方面,系统性地分析了情智兼备数字人与机器人技术的研究现状与进展。展望未来,情智兼备数字人与机器人将在医疗陪护、智能教育、心理健康等领域展现出广阔的应用前景,并将在提升人机交互的自然性、个性化服务以及用户体验方面发挥重要作用。  
    关键词:情感计算;数字人;机器人;多模态情感大模型;情感机理   
    1
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521355 false
    更新时间:2025-03-13

    彭毅, 邵宇飞

    DOI:10.11834/jig.240727
    img
    摘要:目的路面缺陷检测是道路维护和管理的重要环节,人工智能技术能够极大地提升路面缺陷检测的性能和效率,为解决当前路面缺陷检测算法难以满足在计算资源受限设备上进行实时检测的问题,本文基于YOLOv8(you only look once version 8)目标检测框架,结合部分卷积(partial convolution)与初始深度卷积(inception depthwise convolution)机制提出了一种轻量级的路面缺陷检测算法YOLOv8n-PIVI。方法该算法在骨干特征提取网络引入PartialBlock降低模型参数量,同时引入IDBlock(inception depthwise block)丰富网络的特征提取能力并进一步降低计算复杂度;在特征融合网络引入VanillaBlock减少网络参数的同时优化网络特征融合能力;引入ID-Detect(inception depthwise detect)检测头,极大降低模型的计算复杂度并优化检测头对于不同尺度特征的解析能力。结果在Pothole Dataset数据集上的实验结果显示,本文提出的算法mAP50(mean average precision at 50% intersection over union)达到了0.55,较基线算法提升了3.5个百分点,FPS(frames per second)达到了243,较基线算法提升了43,并且模型参数量和计算量仅为基线67%和72%,模型参数文件由6.3MB(mega byte)降低至4.3MB,内存占用较原模型降低了近1/3。在与目标检测领域较经典算法的对比实验中,本文所提出的算法在同参数量级模型中检测精度、计算复杂度及FPS较其他算法都有一定优势。此外,在RDD2022(road damage detector 2022)-China-MotorBike数据集和VOC2012(visual object classes 2012)数据集上的实验结果表明,本文所提算法具有良好的适应性和鲁棒性,能够适应不同的目标检测任务。结论综合实验结果表明,本文提出的算法能够以轻量级的计算资源需求,实现更高的目标检测性能,模型参数文件大小低至4.3MB,并且具有良好的适应性和鲁棒性,有助于降低路面缺陷检测算法的使用限制,拓宽路面缺陷检测系统的适用场景。  
    关键词:缺陷检测;路面缺陷检测;YOLOv8;轻量级模型;部分卷积;初始深度卷积   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 86521127 false
    更新时间:2025-03-13

    郝雯, 吕炎, 金海燕, 石争浩

    DOI:10.11834/jig.240593
    img
    摘要:目的地点识别是机器人利用实时扫描到的点云数据进行定位和自主导航的核心。现有的针对大规模点云的地点识别方法往往忽略了真实驾驶中存在的旋转问题。当查询场景发生旋转时,这些方法识别性能会显著下降,这严重阻碍了它们在复杂现实场景中的应用。因此,本文提出一种有效的面向三维点云的具有旋转感知地点识别网络(Efficient Rotation-Aware Network for Point Cloud based Place Recognition,ERA-Net)。方法首先,利用自注意机制与邻域注意力机制,在捕捉点与点之间的全局依赖关系的同时,捕捉每个点与其邻域点之间的局部依赖关系,充分提取点间的语义特征。同时,利用点与其k邻近点的坐标信息,计算距离、角度以及角度差等低维几何特征,并设计基于特征距离的注意力池化模块,通过在高维空间分析特征之间的相关性,提取具有较强区分性且具有旋转特性的几何特征。最后,将提取的语义特征以及几何特征进行有效融合,通过NetVLAD模块,产生更具判别性的全局描述符。结果将提出的ERA-Net在公共数据集Oxford Robotcar上进行验证并与最先进的方法(state-of-the-art methods,SOTA)进行比较。在Oxford数据集中,ERA-Net的Average Recall@1%指标可以达到96.48%,在University Sector(U.S.)、Residential Area(R.A.)以及Business District(B.D.)数据集上的识别效果均优于其它方法。特别的,当查询场景进行旋转时,ERA-Net的识别效果优于已有方法。结论实验结果表明,ERA-Net能够充分考虑点间的上下文信息,以及特征间的相关性,提取具有较强独特性的场景特征,在面对旋转问题时能够展现出较好的鲁棒性,具有较强的泛化能力。  
    关键词:点云场景;地点识别;旋转感知;注意力机制;特征距离   
    20
    |
    20
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428416 false
    更新时间:2025-03-04

    王龙标, 江宇, 王天锐, 王晓宝, 党建武

    DOI:10.11834/jig.240607
    img
    摘要:目的本文探讨了一种基于语音信息解耦策略的语音预训练大模型,旨在利用海量无标注语音数据训练模型,从中提取出语言信息、副语言信息和非语言信息,并促使各个表征相互独立。该模型能够为下游的大语言模型和生成模型提供完备且可控的语音信息,从而支持言语交互系统的研发。方法本文提出了一种基于信息解耦的自监督语音表征学习大模型方案,利用海量无标注数据,实现了高质量语音信息解耦。在编码器风格的自监督预训练策略的基础上,引入了两个轻量化模块,以增强韵律和说话人信息的提取能力。同时为避免已提取的信息干扰内容信息的学习,模型通过残差的方式将其从主分支中去除,并采用语音掩码预测机制训练主分支,以保证模型的深层特征在语言处理任务上的优越表现。通过这种方式,模型能够逐步地提取输入语音中的韵律、说话人和内容特征。通过结合多层特征并调整权重,模型能够获取适用于各类下游任务的特定特征。此外,文中提出的渐进式解码器优化了预训练大模型在语音生成任务中的适应性。结果实验结果表明,本文方法在不同数量音频训练出的两个版本模型(Base和Large),对语音识别、说话人验证、情感识别以及情感音色转换等任务中均表现出显著的优势。与HuBERT模型相比,Base版本在语音识别、说话人验证和情感识别任务中的准确率分别提高了5.65%、13.02%和2.43%;Large版本则分别提高了2.53%、5.76%和1.78%。在情感音色转换任务中,本文模型相较于基线模型ConsistencyVC和wav2vec-vc展示了更优的性能,具体表现为在说话人相似度、情感相似度、词错率和感知质量评分等指标上均有所提升,进一步验证了模型的有效性。结论这一成果通过将信息解耦思路融入自监督预训练特征提取大模型,有效提升了模型对语音信息的解析与重构能力,为言语交互大模型提供了新的研究视角与实用工具。  
    关键词:信息解耦;自监督学习;语音编解码;言语交互大模型;语音合成   
    24
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428295 false
    更新时间:2025-03-04

    邹茂扬, 伍玉兰, 高琳, 王钟渭, 陈燃

    DOI:10.11834/jig.240566
    img
    摘要:状态空间模型(state-space model,SSM)在长序列计算效率方面表现优异。2024年基于SSM的具有选择机制和硬件感知状态扩展的Mamba模型问世,状态空间模型成为新的备受瞩目的人工智能架构,其性能可能超过Transformer。为了充分了解状态空间模型在医学图像处理领域的研究和应用,本文进行了全面的调查,首先对状态空间模型的发展历程和各种基于SSM的基础模型进行总结,然后按照图像分割、分类、配准和融合、重建,以及疾病预测、医学图像合成、放射治疗剂量预测任务进行分类研究,探讨了每种任务中SSM模型的改进和应用,最后讨论了状态空间模型面临的挑战和今后的研究方向。此外,本文讨论的研究及其开源实现汇编在了GitHub中,地址为:https://github.com/wyl32123/ssm-medical-paper/tree/main。  
    关键词:状态空间模型;Mamba;医学图像分割;医学图像分类;医学图像配准和融合;医学图像重建   
    30
    |
    23
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428186 false
    更新时间:2025-03-04

    苏兆品, 魏玉洋, 张国富, 廉晨思, 岳峰

    DOI:10.11834/jig.240686
    img
    摘要:随着文本到语音(Text To Speech,TTS)、语音转换(Voice Conversion,VC)等克隆语音技术的快速发展,如何在司法实践中准确识别克隆语音,即克隆语音是否来源于目标说话人特征,成为了一个极具挑战性的难题。虽然现有说话人识别技术可以通过声纹特征比对确认自然语音的说话人身份,但由于克隆语音不仅与目标说话人音色相似,但又包含源说话人的特点,使得传统说话人识别技术难以去除原说话人音色的干扰,难以直接应用于深度克隆语音。基于此,本文研究了一种面向克隆语音的目标说话人鉴别方法。具体来说,首先基于Res2Block设计组渐进信道融合模块(Group Progressive Channel Fusion, GPCF),以有效提取自然语音与克隆语音之间的公共有效声纹特征信息;其次,设计基于K独立的动态滤波器组(Dynamic global filter, DGF),以有效抑制源说话人的影响,提高模型表征和泛化能力;然后,设计了基于多尺度层注意力的特征融合机制,以有效融合不同层次GPCF模块和DGF模块的深浅层特征;最后,设计注意力统计池(Attentive Statistics Pooling,ASP)层,进一步增强表示特征张量中的目标说话人信息。实验在所设计的数据集上与3种较新的方法进行了比较,相对于其他3种方法,EER分别降低了1.38%、0.92%、0.61%,minDCF分别降低了0.0125、0.0067、0.0445。在FastSpeech2、TriAANVC、FreeVC和KnnVC四种语音克隆数据集的对比实验结果表明,所提方法在处理面向克隆语音的声纹认定任务时更具有优势,可以有效提取克隆语音中的目标说话人特征,为克隆语音的声纹认定提供方法指导。  
    关键词:克隆语音;声纹认定;组渐进信道融合;动态全局滤波器;多尺度层注意力机制   
    16
    |
    20
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85428084 false
    更新时间:2025-03-04

    万航, 吴晓群

    DOI:10.11834/jig.240550
    img
    摘要:三维点云是空间中的一组数据点,主要包括刚性点云和非刚性点云,是表达物体或场景几何信息的重要数据形式,广泛应用于计算机视觉、机器人导航、自动驾驶、增强现实等领域。但是由于传感器移动、噪声遮挡等原因导致数据产生偏移、不完整和不准确等问题,给后续处理带来挑战,因此,如何实现精确、高效、鲁棒的三维点云配准显得尤为重要。点云配准是对从同一场景的不同位置采集的两个或多个三维点云进行配准的过程,需要找到源点云和目标点云之间的对应关系,然后求解他们之间的变换矩阵。经过配准后可以使点云数据能够在同一个坐标系下进行对齐,方便进行处理。本文将点云配准方法进行梳理并按照求解对应关系和求解变换矩阵进行分类,更直观地对点云配准方法进行介绍与对比。本文分别介绍了刚性点云配准方法和非刚性点云配准方法,总结了目前基于优化的学习方法与基于深度学习方法的概况,介绍了一些代表性的点云配准方法,为进一步的研究提供帮助。此外,本综述总结了基准数据集。最后,提出了今后在这一专题上可能产生的问题以及进行研究的建议。  
    关键词:三维点云;配准;刚性点云;非刚性点云;优化方法;深度学习   
    19
    |
    21
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85427980 false
    更新时间:2025-03-04

    胡馨悦, 石雨, 刘羽

    DOI:10.11834/jig.250028
    img
    摘要:目的阿尔茨海默症(Alzheimer's disease, AD)作为一种常见的老年性痴呆疾病,近年来已成为全球公共卫生面临的重大挑战,设计一种有效且精确的阿尔茨海默症早期诊断模型具有重要的临床意义和迫切需求。目前,阿尔茨海默症的临床诊断通常依赖于正电子发射断层扫描(Positron Emission Tomography, PET)和核磁共振成像(Magnetic Resonance Imaging, MRI)两种医学影像数据。然而,由于这两种模态间存在信息差异大,未精确配准等问题,现有的基于人工智能(Artificial Intelligence, AI)的诊断模型大多仅使用单一的MRI数据。这在一定程度上限制了多模态影像信息的充分利用和分类性能的进一步提升,制约了其临床实用性。针对上述问题,提出一种结合DenseNet和Mamba的多模态医学脑影像阿尔茨海默症早期诊断模型——DenseMamba。方法该方法以经过标准预处理流程后的PET和MRI数据为输入,预处理流程包括:颅骨剥离、配准、偏置场校正、归一化。MRI和PET级联后首先经过卷积层和激活层进行初步特征提取,提取到的特征再依次经过若干个交替的Denseblock和TransMamba模块分别进行局部和全局的特征提取,Denseblock内的密集连接结构,增强了局部特征的提取和传播,从而能够捕捉影像中的细节信息;而TransMamba模块则基于状态空间模型,高效地建模全局依赖关系,交替的Denseblock和TransMamba使得模型能够更全面地理解多模态数据信息,充分挖掘多模态数据在临床诊断任务上的潜力。最后,将提取到的特征送入分类器得到疾病预测结果。结果为验证方法的有效性,实验在公开的ADNI(Alzheimer’s Disease Neuroimaging Initiative)数据集上对其进行了评估。最终模型的准确率(accuracy)、精确度(precision)、召回率(recall)和F1值分别为92.42%、92.5%、92.42%、92.21%。DenseMamba在阿尔茨海默症分类任务中较其他算法表现优异,与现有先进的方法相比准确率提升0.42%。结论实验结果表明,与现有的基于单模态影像数据的分类方法相比,DenseMamba能够充分发挥PET和MRI数据的潜力,显著提升分类性能,为阿尔茨海默症的早期诊断提供更精准的支持。  
    关键词:阿尔茨海默症;多模态医学图像;密集连接神经网络;状态空间模型;Mamba   
    24
    |
    23
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 85427875 false
    更新时间:2025-03-04

    程龙昊, 李常颢, 胡瑞珍, 刘利刚

    DOI:10.11834/jig.240598
    img
    摘要:目的使用低光图片训练神经渲染模型进行新视角合成无法得到正常光照条件下的图片,目标检测、语义分割等在处理低光照片时会产生明显的性能退化,面临着严峻的挑战,并且现有的方法在渲染速度和图像高频细节上存在问题。针对现有问题,本文提出一种对三维高斯泼溅模型进行低光增强的方法。方法首先利用一个轻量化的光照预测网络将三维高斯泼溅模型中三维高斯分布的颜色属性分解为物体本征颜色和光照两个部分,利用本征颜色渲染得到正常光照场景图片,同时使用多种损失函数从结构和颜色上改善图像质量;为了提高图片中高频细节的清晰度,采用固定几何的优化方案。结果实验在低光场景的新视角合成数据集LOM上与主流方法进行了比较,与现有最佳方法相比,在峰值信噪比指标上平均提升了0.12dB,在结构相似性指标(Structural Similarity Index, SSIM)上平均提升了1.3%,在学习感知图像块相似度指标(Learned Perceptual Image Patch Similarity, LPIPS)上平均提高了5.5%,训练时间仅有以往方法的1/5,渲染速度则达到以往方法的1000倍以上。结论本文所提出的方法能够更快地进行训练和渲染,同时也具有更高的图像质量,图像的高频细节和结构更加清晰,并通过全面的对比实验验证了方法的有效性与先进性。  
    关键词:低光增强;新视角合成;机器学习;神经渲染;三维高斯泼溅   
    26
    |
    43
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84439047 false
    更新时间:2025-02-27

    罗霜, 钱文华, 刘朋

    DOI:10.11834/jig.240601
    img
    摘要:目的东巴画是纳西族传统艺术的瑰宝,其画面视觉元素丰富、色彩分明,具有鲜明的地域文化特色和民族特征。针对现有图像描述方法在东巴画描述中存在的领域偏移问题,本文提出了一种结合提示学习和视觉语义-生成融合的东巴画图像描述方法。该方法引入内容提示模块和视觉语义-生成融合损失,旨在引导模型学习东巴画的主题信息,提升描述的准确性和文化表达能力。方法采用编-解码器(encoder-decoder)架构实现东巴画图像描述的生成。编码器采用卷积神经网络(convolutional neural networks,CNN)捕获图像中关键的语义信息,并将这些特征整合到解码器编码层中的归一化层,控制文本描述的生成过程。解码器采用Transformer结构实现,利用自注意力机制有效地捕捉输入序列中的长距离依赖关系,使模型关注输入序列中的关键信息。此外,本文在解码器之前引入了内容提示模块。该模块通过图像特征向量得到图像的主体、动作等信息,并将其构建成提示信息作为描述文本的后置提示。通过后置提示信息,解码器能有效地关注描述文本中具体的文化场景和细节特征,增强对东巴画特定图案和场景的识别与理解能力。同时,本文引入了视觉语义-生成融合损失,通过优化该损失,引导模型提取东巴画中的关键信息,从而生成与图像保持高度一致的描述文本。结果实验结果表明,在东巴画测试集上,本文所提方法在BLEU(bilingual evaluation understudy)_1到BLEU_4、METEOR(metric for evaluation with explicit ordering)、ROUGE(recall-oriented understudy for gisting evaluation)和CIDEr(consensus-based image description evaluation)评价指标上分别达到了0.603、0.426、0.317、0.246、0.256、0.403和0.599,东巴画图像描述文本在主观质量也得到了更好的效果。结论本文所提方法显著增强了模型对东巴画图像主题和民族文化特征的捕捉能力,有效提升了生成描述在准确性、语义关联性和表达流畅性方面的表现。  
    关键词:东巴画;图像描述;提示学习;视觉语义-生成融合;领域偏移   
    22
    |
    30
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84439005 false
    更新时间:2025-02-27

    贾迪, 刘洋, 李维, 韩雪峰, 宋慧伦, 孟晓华, 刘宇琪

    DOI:10.11834/jig.240673
    img
    摘要:目的基于点云的神经渲染方法受点云质量及特征提取的影响,易导致新视角合成图像渲染质量下降,为此本文提出一种融合局部空间信息的新视角合成方法。方法针对点云质量及提取特征不足的问题,本文首先给出一种神经点云特征对齐模块,将点云与图像匹配区域的特征进行对齐,融合后构成神经点云,提升其特征的局部表达能力。其次,提出一种神经点云Transformer模块,用于融合局部神经点云的上下文信息,在点云质量不佳的情况下仍能提取可靠的局部空间信息,有效增强了点云神经渲染方法的合成质量。结果实验结果表明,在真实场景数据集中,对于只包含单一物品的数据集Tanks and Temples,本文方法在峰值信噪比(peak signal to noise ratio, PSNR)指标上与NeRF方法相比提高19.2%,相较于使用点云输入的方法Tetra-NeRF和Point-NeRF分别提升6.4%、3.8%,即使在场景更为复杂的ScanNet数据集中,与NeRF方法及Point-NeRF相比分别提升34.6%和2.1%。结论本文方法能够更好地利用点云的局部空间信息,有效改善了稀疏视角图像输入下因点云质量和提取特征导致的渲染质量下降,实验结果验证了本文方法的有效性。  
    关键词:神经辐射场;点云;神经渲染;三维重建;体积密度   
    26
    |
    37
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84438950 false
    更新时间:2025-02-27

    魏思, 杨文璐

    DOI:10.11834/jig.240600
    img
    摘要:目的可见光-红外行人重识别(VI-ReID)因可见光与红外图像间的模态差异而面临挑战,现有方法在特征分辨力方面存在不足。本研究旨在设计一种全新算法以获取高分辨力的行人特征,弥补跨模态识别任务中的不足。方法本研究提出一种融合结构与视觉特征的VI-ReID算法,通过双流分支进行处理。首先,借助姿态估计提取骨骼关键点来生成结构特征图,通过图卷积网络(GCN)学习骨骼的结构化信息,以构建结构特征提取分支;同时,以ResNet50作为视觉提取分支获取图像视觉特征。在此基础上,提出结构-视觉跨模态注意力机制(SVIAM),融合骨骼和视觉特征,得到高分辨力的联合特征表示。此外,为增强骨骼特征的一致性,提出结构内聚损失(SCLoss)函数,持续优化骨骼特征,有效减少模态内差异,保障算法的稳定性与准确性。结果实验结果表明,所提出算法在SYSU-MM01数据集上表现卓越,相较于基线DEEN,在all search模式下,Rank-1准确率提高4.21%,mAP提高3.52%;在indoor search模式下,Rank-1准确率提高7.39%,mAP提高2.56%。结论本研究提出融合结构与视觉特征的VI-ReID算法,有效提升跨模态行人重识别的识别精度,并在复杂场景中展现较高的鲁棒性和准确性。  
    关键词:可见光-红外行人重识别;层次化特征提取;骨骼结构特征;结构-视觉跨模态注意力机制;结构内聚损失   
    28
    |
    39
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84438923 false
    更新时间:2025-02-27

    孙巍, 王乾宙, 陈雪凌, 丁晨, 闫庆森, 张磊, 张艳宁

    DOI:10.11834/jig.240775
    img
    摘要:高分辨率的视觉感知对场景的理解、分析等工作十分重要,但在真实场景下受限于拍摄条件、成像设备成本和系统光学器件、电路噪声和传感器的灵敏度等因素,图像往往伴随着各种降质因素影响,表现出模糊、低分辨率等特性。因此,挖掘和利用低分辨率图像中包含的相关信息,利用超分辨重建的方式提高成像分辨率具有十分重要的研究价值。为此,本文系统地分析了国际国内近年来在真实场景下图像超分辨重建领域的重要研究进展,包括问题构造和降质建模、超分辨领域常用数据集与评价指标、传统真实场景下超分辨重建、真实场景下基于监督学习的超分辨重建以及真实场景下基于无监督学习的超分辨重建技术等。其中,问题构造和降质建模部分讨论了降质成像过程及模型化方法。数据集与评价指标部分讨论了超分辨领域常见的合成数据集、真实场景数据集以及定量和定性评价方法。传统超分辨重建部分探讨了早期的超分辨重建方法,包括内插法和基于重建的方法等。基于监督学习的超分辨重建部分则以退化形式为区分,从退化未知与退化已知两个角度进行梳理,探讨如何利用监督信息指导模型参数学习。基于无监督学习的超分辨重建部分则从无监督角度分析讨论低分辨率图像信息的利用,以及退化模型的建模与估计。论文详细综述了上述研究的挑战性,梳理了国内外技术发展脉络和前沿动态。最后,根据上述分析展望了真实场景下图像超分辨技术的发展方向。  
    关键词:真实场景;超分辨重建;退化模型;有监督学习;无监督学习   
    37
    |
    46
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437942 false
    更新时间:2025-02-27

    陆霆洋, 吕凡, 周涛, 姚睿, 胡伏原

    DOI:10.11834/jig.240739
    img
    摘要:目的持续测试时适应(Continual Test-Time Adaption)旨在不使用任何源数据的情况下,使源预训练模型适应持续变化的目标域。目前持续测试时适应主要依赖于自训练方法,在基于平均教师模型框架下将数据增强后样本的预测值作为伪标签,构建一致性损失函数实现模型的自训练。然而,本文通过实验发现,现有方法中使用随机数据增强策略忽视了域间差异的重要性,导致模型稳定性和泛化性失衡等问题,使得在某些域间进行知识转移变得更具挑战性。为此,本文提出了一种面向域间差异的持续测试时适应方法,聚焦于计算机视觉领域中的图像分类任务,探讨如何通过持续测试时适应技术提升模型对新域的适应能力。方法首先,提出一种基于域间差异的弹性数据增强策略。通过构建表示域间特征风格的Gram矩阵,计算相邻域间的差异,选取合适的弹性因子控制数据增强的强度,在数据预处理层面考虑域间差异性,使模型能更好地适应域复杂多变的情况。其次,提出一种全局弹性对称交叉熵损失函数。将基于域间差异计算取得的弹性因子应用于伪标签生成以及一致性损失函数的构建中,在模型优化层面考虑域间差异性,增强模型对不同域变化下的理解和适应能力。最后,提出一种基于置信度的伪标签自纠错策略。在弹性数据增强下,强数据增强是通过对原始数据进行较大程度的变换来实现,模型在预测过程中可能面临预测偏差的问题,而弱数据增强涉及较小程度的变换,不会显著改变基本特征,模型对其预测的置信度较高。该策略利用高置信度的弱数据增强预测值对强数据增强的预测值进行自纠错,减少误差积累现象。结果本文在CIFAR10-C、CIFAR100-C和ImageNet-C三个数据集上与多种先进算法进行比较。在CIFAR10-C数据集上,本文算法相较于基线方法Cotta,错误率降低了约2.3%;在CIFAR-100数据集上,算法相较于基线方法Cotta,错误率降低了约2.7%;在ImageNet-C数据集上,算法在对比实验中错误率降低了约3.6%。同时本文在CIFAR10-C数据集中进行了消融实验,进一步验证各个模块的有效性。此外,为了符合更实际的域变化场景,本文在CIFAR100-C设计了域随机输入实验,结果显示本文的方法在域随机输入的情况下错误率低于现有方法,对比基线平均错误率降低了3.9%,证明了本文方法可以有效地评估域间关系,并部署灵活策略以提升模型对持续变化目标域的适应能力。结论本文算法平衡了模型在持续测试时适应场景中的泛化性和稳定性,并且有效减少了误差积累现象。  
    关键词:持续测试时适应;Gram矩阵;域间差异;全局对称交叉熵;弹性数据增强;伪标签自纠错;持续学习   
    22
    |
    46
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437894 false
    更新时间:2025-02-27

    张广运, 张荣庭, 张余, 王麒雄, 冯家齐, 姜鸿翔

    DOI:10.11834/jig.240778
    img
    摘要:城市3D Mesh模型解译是城市级实景三维建设的重要环节,有助于建筑设施、交通设施等城市设施的数字化和智能化、精细化管理,在城市更新、环境整治、城市仿真等城市行动中发挥积极作用。当前城市3D Mesh模型的语义化、单体化仍主要由人工勾勒实体轮廓,通过实体边界将每一个单独地物从城市3D Mesh模型中切割出来并赋予语义信息,然而城市3D Mesh模型通常是以瓦块的形式表达,在进行跨瓦块切割时容易让模型出现破碎、接缝、割裂等问题。为此,学者们开始研究基于深度神经网络的城市3D Mesh模型智能解译。然而,城市3D Mesh模型的智能解译却面临着巨大挑战,如城市3D Mesh模型不规则/非水密,传统卷积网络难以直接应用;城市3D Mesh模型多尺度特征获取困难等。虽然深度神经网络在城市3D Mesh模型解译方面的应用起步较晚,但该领域的研究依然取得了迅猛的发展。因此,本文以城市3D Mesh模型智能解译为主线,系统地回顾和总结了现有面向城市3D Mesh模型解译的深度神经网络方法,根据城市3D Mesh模型表达方式的不同,将面向城市3D Mesh模型解译的深度神经网络方法分为三类,即面向多视图表示的方法、面向质心点云表示的方法、面向3D Mesh模型元素的方法,并对这三类方法进行了详细比较和总结了当前面临的挑战;其次,梳理了城市3D Mesh模型智能解译常用的6个基准数据集,比较了多种方法在这些基准数据集中针对城市3D Mesh模型语义分割任务的性能表现;最后,对城市3D Mesh模型解译未来的发展方向和潜在应用前景进行了深入分析和讨论。  
    关键词:数字中国;实景三维;深度学习;场景解译;城市三维网格   
    15
    |
    30
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437857 false
    更新时间:2025-02-27

    封筠, 孟旭静, 尚玉全, 牛超凡

    DOI:10.11834/jig.240663
    img
    摘要:目的传统异常检测方法在工业产品缺陷判别中仅关注当前任务,从而导致在接受新任务训练时会灾难性地遗忘以前学过的知识。鉴于现实工业场景中对异常检测模型的灵活性和持续适应性的需求,结合连续学习方法提出一种适配器增强的双阶段连续缺陷判别方法(adapter-enhanced two-stage continual defect detection,AETS)以实现连续异常检测任务。方法首先,在AdaptFormer基础上引入外部注意力机制,增强模型对顺序任务中的全局依赖关系的捕捉能力,以提升对新任务的泛化性能。其次,在视觉转换器(vision Transformer,ViT)预训练模型的基础上结合高效微调技术,采用双阶段训练策略,即在适应阶段,通过全量微调缓解自然图像与工业图像之间的域差异;在高效微调阶段,通过适配器增强模块提升模型对新任务的适应性,同时冻结大部分参数以保留对旧任务的记忆,从而缓解灾难性遗忘问题。此外,还提出遗忘波动率(forgetting fluctuation rate, FFR)这一新的连续学习评价指标,用于量化模型在整个学习过程中遗忘波动情况,以检验模型在工业场景中的适用性和稳定性。结果在MVTec-MCIL、MVTec-SCIL和MVTec+MTD数据集上进行实验,AETS的ACC值分别达到84.21%、89.16%和78.49%,相较于5种连续学习方法,AETS具有最佳的ACC、FM值和最小的训练参数量,相较于6种先进高效微调方法其FFR值达到最佳。消融实验选取缩放因子及确定适配器增强模块结构,以实现模型可塑性与稳定性的最佳平衡。结论所提出的AETS方法通过构建适配器增强模块,充分利用预训练模型的特征表达能力,双阶段训练策略能够捕捉与任务相关的特征,显著增强模型在连续工业缺陷判别任务中的适应性和泛化性。  
    关键词:连续学习;工业产品缺陷判别;异常检测;适配器增强;双阶段训练;参数高效调整;遗忘波动率   
    16
    |
    40
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437819 false
    更新时间:2025-02-27

    贾迪, 何德堃, 韩雪峰, 杨柳, 程硕, 刘宇琪

    DOI:10.11834/jig.240672
    img
    摘要:目的针对目前三维人体姿态估计方法未能有效地处理时间序列冗余,难以捕获人体关节上的微小变化的问题,本文提出一种融合多关节特征的单目视觉三维人体姿态估计网络。方法在关节运动特征提取模块中,采用多分支操作提取关节在时间维度上的运动特征,并将不同特征融合形成具有高度表达力的特征表示。关节特征融合模块整合了不同关节组和中间帧的全局信息,通过矩阵内积的方式表达不同关节组在高纬度空间的相对位置及相互联系,得到中间3D姿态的初估值。关节约束模块引入中间帧的2D关节点空间位置关系作为隐式约束,与中间帧3D姿态初估值融合,减少不合理的姿态输出,提高最终3D姿态估计的准确性。结果实验结果表明,与MHFormer方法相比,本方法在Human3.6M数据集上的平均关节位置误差(mean per joint position error,MPJPE)结果为29.0mm,误差降低4.9%,在复杂动作,如SittingDown和WalkDog,误差降低了7.7%和8.2%。在MPI-INF-3DHP数据集上,MPJPE指标降低36.2%,曲线下面积(area under the curve,AUC)指标上提升12.9%,正确关节点百分比(percentage of correct keypoints,PCK)指标上提升3%。体现出,在面对复杂动作问题时,网络利用各分支提取了不同的关节时序运动特征,将不同关节组的位置信息进行融合交互,结合当前帧的关节姿态信息加以约束,得到更高的精度。在HumanEva数据集上的实验结果验证了本方法适用不同数据集,消融实验进一步验证了各个模块的有效性。结论本文提出的网络由于有效地融合了人体多关节特征,可以更好地提高单目视觉三维人体姿态估计的准确性,且具备较高的泛化性。  
    关键词:三维人体姿态估计;人体拓扑结构;多分支网络;特征融合;姿态约束   
    24
    |
    39
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 84437776 false
    更新时间:2025-02-27
0