最新刊期

    在人脸图像年龄估计领域,研究者提出了一种开集半监督多任务学习方法,有效提升了年龄估计精度,为精准人脸年龄估计提供新思路。

    张珂, 梁龙萍, 郭玉荣, 王子念

    DOI:10.11834/jig.250023
    img
    摘要:目的人脸图像年龄估计在数字营销和人机交互等领域具有重要的应用价值。然而,实现精确人脸年龄估计面临缺乏大规模有标签数据集的挑战。半监督学习方法能利用无标签数据集缓解此问题,但现有方法易引入错误伪标签,对年龄估计性能产生负面影响。因此,本文提出一种面向人脸年龄估计的开集半监督多任务学习方法。方法首先,为了增强模型对局部和全局特征的处理能力,本文提出SwinLEDF模型,该模型以Swin Transformer作为主干网络,用于提取全局特征,并通过融合LEFF(local enhanced feed-forward)模块和DFN(dynamic filter networks)模块,进一步提升模型对局部特征的提取能力。其次,为了有效利用有标签数据和无标签数据中的有效信息,设计开集半监督多任务学习框架。在此框架中,模型通过标准闭集分类器和多类二元分类器的协同工作有效排除异常数据的干扰,采用自适应阈值方法确定性别、种族和年龄的伪标签,并引入负学习策略,以提高对无标签数据的利用率。结果在MORPH数据集上,仅使用有标签数据集时,模型的平均绝对误差为1.908;同时使用有标签数据集和无标签数据集时,MAE降至1.885。在UTKface数据集上,仅使用有标签数据集时,MAE为4.343;而结合有标签数据集和无标签数据集时,MAE降至4.246。与现有的人脸年龄估计方法相比,本方法提高了年龄估计的性能,能够有效利用无标签数据集进一步优化年龄估计性能。结论本文提出一种面向人脸年龄估计的开集半监督多任务学习方法,能够从有标签数据集和无标签数据集中有效提取人脸图像的性别、种族和年龄特征,从而提升人脸年龄估计的精度。这为实现更加精准的人脸年龄估计提供了新的思路和解决方案。  
    关键词:人脸年龄估计;开集半监督学习;多任务学习;SwinLEDF模型;伪标签   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100741781 false
    更新时间:2025-05-15
    类脑视觉感知技术在视频增强领域取得新进展,专家深入探讨了事件相机的理论原理和技术手段,为解决视频降质问题提供新思路。

    余磊, 施柏鑫, 王威, 余肇飞, 郭宇飞, 乔宁, 夏桂松

    DOI:10.11834/jig.240779
    img
    摘要:类脑视觉感知仿效生物大脑处理视觉信息的机制,通过构建神经形态视觉模型来完成视觉感知任务。事件相机作为一种新型类脑神经形态视觉传感器,仅感知场景光强的动态变化,输出表示场景光强变化的事件脉冲(或简称“事件”)。这种特殊的成像方式使得事件相机不仅具有高动态范围特性,还能对运动引发的场景亮度变化进行几乎连续(微秒级)的异步响应。因此,融合事件脉冲不仅可以有效补偿由于目标运动过快导致的帧内和帧间信息缺失,还能填补过曝光区域的饱和失真,缓解真实复杂场景中的运动模糊、视频插帧、卷帘畸变、过曝光等视频降质问题。本报告将深入探讨以事件相机为代表的类脑脉冲视觉成像方法在视频增强任务中的理论原理和技术手段,总结和归纳近年来融合类脑视觉脉冲的视频增强算法的国内外最新进展。同时,针对该领域所面临的诸如数据处理效率较低、暗光条件性能不佳、空间分辨率不足等瓶颈和挑战作出了相对应的分析与讨论。  
    关键词:事件相机;类脑脉冲视觉;视频增强;高动态范围;运动模糊消除   
    34
    |
    14
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 99640985 false
    更新时间:2025-05-15
    在三维重建和自动驾驶领域,专家提出了一种双阶段双分支模型,有效解决了三维点云数据去噪问题,提升了数据质量。

    权思文, 张淑婷, 赵河彬, 聂子铭, 胡忠文, 杨佳琪

    DOI:10.11834/jig.250076
    img
    摘要:目的三维点云数据在三维重建、自动驾驶等领域有着广泛应用,然而由于传感器设备受限和环境因素,点云数据不可避免地受到了噪声影响,降低了数据质量,影响了后续处理和分析的准确性。现有的基于深度学习的点云去噪主流方法大多采取单阶段单分支去噪流程,导致模型学习到的特征的表达能力有限,难以捕捉点云复杂的结构信息。方法本文提出一种双阶段双分支模型用于三维点云去噪,旨在获得综合点云特征。阶段一,利用双分支编码器提取点云块局部和全局特征,并用交叉注意力融合;阶段二,利用注意力机制增强阶段一特征,聚焦强特征表达。最终,加权融合两阶段解码位移,指导点云去噪。结果实验在3个数据集上与最新的6种方法进行了比较,在PUNet数据集上,相比Pointfilter取得3个最佳性能、2个次佳性能,双分支双编码器模型取得了6个最佳性能、3个次佳性能;在PCNet数据集上,相比于IterativePFN取得2个最佳性能、6个次佳性能,双分支双编码器模型取得了7个最佳性能、3个次佳性能;在Kinect_v1数据集上,相比于同期最优模型,双阶段双分支模型在两种指标上取得了次佳效果,整体达到最佳。结论本文所提出的双阶段双分支模型的三维点云去噪,解决了点云数据块局部特征和全局特征的提取和融合问题,实现了更好的去噪效果。  
    关键词:深度学习;三维点云去噪;双分支编码器;特征融合;注意力机制   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100729642 false
    更新时间:2025-05-15
    在三维模型分类领域,研究者提出了基于Transformer注意力引导的最优视图选择与分类方法,有效提高了分类性能并选出代表性视图。

    陈松乐, 黄茹玥, 黄思轩, 陈怡, 李骞

    DOI:10.11834/jig.250037
    img
    摘要:目的现有的基于多视图的三维模型分类方法通常基于预设的多个视点渲染三维模型,然后将所有渲染的视图送入神经网络模型实现分类。显然由于冗余和无效视图的存在,每个视图对于分类目标的作用并不相同。选择出对分类目标贡献大的视图,不仅有利于提高基于多视图的三维模型分类的性能,而且能够提供表征三维模型的代表性视图。方法本文提出了一种Transformer注意力引导的三维模型最优视图选择与分类方法。在从正十二面体20个视角对待预测的三维模型渲染后,首先采用卷积神经网络从多个视图提取特征信息,获得多视图局部特征Token序列,并对其进行位置编码,以保留其空间位置信息。随后,将可学习的全局分类Token与多视图特征Token序列合并,输入至Transformer编码器进行全局视图特征融合,获得初始全局分类特征。接下来,最优视图选择模块基于全局视图特征融合过程中的注意力得分矩阵计算各视图对初始全局分类Token的贡献,并选择得分高的视图作为最优视图。最后,将最优视图特征Token序列与初始全局分类Token拼接后输入到Transformer编码器进行最优视图融合,并获得最终的全局分类Token,将其输入分类预测模块获得最终分类概率,并输出选择的最优视图。本文在训练过程中采用了随机丢弃视图和对比学习策略,以进一步提高模型的泛化性能。结果在ModelNet40基准数据集上,本文提出的方法总体识别精度和平均识别精度分别为97.61%和96.36%,在达到当前最先进的分类水平的同时,基于Transformer注意力得分矩阵选择出的最优视图更具有表征性。结论本文方法利用Transformer来实现不同视图特征之间的融合,通过自注意力、残差连接以及多层堆叠机制,Transformer能够有效学习数据的复杂特征,并捕捉不同视图之间的全局上下文关系。同时,其注意力得分矩阵为最优视图选择提供了依据,在实现高效分类的同时,能够选择出最具有表征性的视图。  
    关键词:三维模型分类;Transformer;最优视图选择;对比学习;多视角学习   
    4
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100724515 false
    更新时间:2025-05-15
    卫星视频单目标跟踪技术在军事和民用领域具有重要应用,但面临目标尺寸小、相似目标干扰等挑战。专家总结了典型跟踪方法,为解决特征稀少、遮挡等问题提供解决方案。

    高桃峰, 何银鑫, 马学良, 卢自来, 彭世勇, 刘洋

    DOI:10.11834/jig.240750
    img
    摘要:近年来,基于卫星视频的单目标跟踪受到了广泛的关注,其在军事和民用领域发挥着重要作用,可用于城市尺度下的灾害救援、治安防范、突发事件监控等。但受到目标尺寸小、相似目标干扰、运动模糊、背景复杂等各种因素的影响,卫星视频单目标跟踪面临着诸多的挑战。为使更多国内外学者对该领域进行探索,本文对卫星视频单目标跟踪研究现状进行了梳理和分析。首先,阐述了该领域的挑战与优势,视频卫星视野范围大,车辆等目标在卫星视频中只占几个或十几个像素,特征和纹理稀少,此外卫星视频中目标数量较多,目标与干扰物间的可区分性差,相似性较高,还存在目标的快速移动或卫星平台的抖动导致目标模糊的情况,以及目标存在于复杂的背景中,当运动目标本身不明显,背景信息比目标信息更加突出时,会导致跟踪失败。但相对于地面或低空视频,基于卫星视频的目标跟踪又有一定的优势,比如:目标的外部条件,如摄像机视角等相对稳定、卫星视频中的目标多为刚性目标,在跟踪过程中很少发生严重变形、目标的运动状态简单明了,运动轨迹多为直线或平滑的曲线。其次,总结了典型的跟踪方法,包括基于生成式的方法、基于相关滤波的方法和基于深度学习的方法,介绍了解决特征稀少、遮挡、相似目标干扰等问题的相关研究。然后,归纳了现有的卫星视频单目标跟踪数据集和常用的性能评价指标,卫星视频当目标跟踪数据主要有:XDU-BDSTU、VISO、SatSOT、OOTB,其中VISO数据集规模最大,包括训练集和测试集,XDU-BDSTU数据集中的影像幅宽大,适用于长时跟踪,OOTB数据集中的目标标注为旋转框,更加贴合目标。性能评价指标主要有:精确率、成功率、帧率。此外,在自制的测试集上对典型的单目标跟踪方法进行了性能评测与分析,实验结果表明运动估计、时序信息以及背景信息的利用对卫星视频目标跟踪任务较为重要。最后,从统一跟踪结果评价指标、更大规模的高质量卫星视频目标跟踪数据集,更适合于卫星视频单目标跟踪的模型、长时跟踪几个方面展望了卫星视频单目标跟踪算法的未来发展趋势。  
    关键词:卫星视频;单目标跟踪;相关滤波;深度学习;吉林1号   
    7
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100718830 false
    更新时间:2025-05-15
    在行人轨迹预测领域,研究者提出了结合社会约束与轨迹终点的路径逐步估计网络PSEN,综合了真实世界中行人场景的三个特点,在ETH/UCY与SDD数据集上取得了更优异的效果。

    吴恩泓, 纪庆革

    DOI:10.11834/jig.240754
    img
    摘要:目的当前多数的行人轨迹预测方法专注于序列化数据的特征,忽略了对行人轨迹的社会语义进行学习,因此本文着重研究行人轨迹中的社会特征与人类行走特征,提出了结合社会约束与轨迹终点的路径逐步估计网络(Path stepwise estimation network combining social constraints and trajectory endpoints, PSEN)。方法本文根据人类在行走中对路径规划的三点特征,一是社会约束,将人群按照社交约束,依据运动学信息进行分类,并根据社交权重得到被预测行人与类内其他行人的社交注意力,从而影响后续的路径估计网络;二是通过模拟行人会先确定终点,有目的性地规划自己行走的路径这一特征,设计一个终点估计网络,通过时空序列对终点进行预测,对完整的路径规划提供参考价值;三是行人不断根据周边环境与终点进行局部路径微调并重新分配注意力的特征,搭建终点与路径微调网络,实现自动根据环境进行微调路径规划的效果。结果实验在ETH/UCY数据集上与6种基线方法进行了比较,在SDD数据集上与5种基线方法进行了对比,在ETH/UCY整个数据集中评价标准平均位移误差(average displacement error, ADE)/最终位移误差(final displacement error, FDE)平均降低了5.1%/7.5%,在SDD数据集中评价标准ADE/FDE平均降低了1%/2%,针对行人较为密集的场景,如ZARA1,ZARA2,UNIV数据集的预测效果均提升了10%以上的效果。同时在ETH/UCY数据集上进行了消融实验,根据实验结果证明了PSEN各个模块能够提高行人轨迹预测任务的效果,ADE和FDE分别平均降低19%和31%。结论本文所提出的结合社会约束与终点的路径逐步估计网络(PSEN),综合了真实世界中行人场景的三个特点,在ETH/UCY与SDD数据集上取得了更优异的效果。  
    关键词:行人轨迹预测;序列化预测;循环神经网络;条件变分自动编码器;社交约束;ETH/UCY   
    7
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100713418 false
    更新时间:2025-05-15
    数字化口腔正畸领域取得新进展,专家提出牙弓线拟合新方法,有效解决理想牙弓线拟合难题,为牙齿正畸治疗提供帮助。

    刘伟杰, 马龙, 魏广顺, 范业莹, 周元峰

    DOI:10.11834/jig.240591
    img
    摘要:目的近年来,数字化口腔正畸备受关注,其中牙弓线设计是计算牙齿目标位的关键。现有方法多采用Beta函数拟合牙弓线,但由于自由度的限制使其难以拟合出代表理想牙弓形态的牙弓线。为此,本文提出通过累加弦长参数化并基于Hermite插值函数的牙弓线拟合方法,以提高牙弓线拟合的精度和灵活性。方法首先,使用牙齿分割技术得到每颗牙齿的数据,并通过牙齿特征点检测方法得到对应牙齿的特征点。其次,选取指定牙齿的特征点,采用累加弦长参数化方法确定最终插值点。最后,通过构建待定系数矩阵,确定方程组,拟合出以分段函数表示的牙弓线。此外,本文基于特征点与拟合牙弓线之间的最短距离,提出了两种评估数学函数拟合牙弓线能力的指标。结果本文方法克服了Beta函数原有的局限性,具有较强的可控性。医生可以通过调整控制点,拟合出符合正畸需求的理想牙弓线。各项评价指标均显示,本文方法优于现有常用方法。此外,将本文方法拟合的牙弓线应用于现有的牙齿正畸自动排列方法中,验证结果显示正畸效果显著提升。结论本文方法拟合牙弓线的精度以及灵活性均优于现有方法,能够有效解决理想牙弓线拟合难的问题,为后续牙齿正畸治疗提供了有效的帮助。  
    关键词:牙弓线;Hermite插值;牙齿正畸;参数化;分段函数   
    6
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100709580 false
    更新时间:2025-05-15
    手写数学公式识别技术取得新进展,专家总结了基于深度学习的方法,为教育和科技领域提供解决方案。

    朱建华, 高良才, 赵文祺, 彭帅, 胡鹏飞, 杜俊

    DOI:10.11834/jig.240425
    img
    摘要:手写数学公式在教育和科技等领域具有广泛的应用,如何将其准确识别并转换成MathML或LaTeX等格式的结构化表达式即手写公式识别,成为文字识别领域一个备受关注的研究问题。同时,由于手写公式具有嵌套层次结构、书写风格多样等特点,这个研究问题仍极具挑战性。目前,手写公式识别的研究工作主要分为基于语法规则的传统方法和基于深度学习的方法。本文在系统回顾传统公式方法的识别流程与问题分析之后,重点梳理总结了基于深度学习的手写公式识别方法,围绕视觉特征提取、视觉与文本特征对齐和文本输出回归三个公式识别子任务,针对语义不变的视觉特征学习、“缺乏覆盖”、输出不平衡和建模公式二维结构四个问题,综述了过往工作进行的相关改进与优化。另外,针对当下热门的多模态大模型,在手写数学公式识别数据集上也对其进行了测试,并补充了其在印刷体公式识别中的表现。最后,结合手写公式识别目前面临的挑战和困难,对未来的发展方向和研究趋势进行了展望。  
    关键词:手写数学公式识别;密集卷积网络;注意力机制;双向训练;树结构   
    8
    |
    1
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100678606 false
    更新时间:2025-05-15
    在分心驾驶行为识别领域,研究者提出了融合全局与局部特征的两阶段ViT方法,准确率显著提升,为分类任务研究提供新思路。

    王腾, 高尚兵, 任刚

    DOI:10.11834/jig.240533
    img
    摘要:目的针对基于端到端卷积神经网络(convolutional neural networks,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,本文提出了一种融合全局与局部特征的两阶段ViT分心驾驶行为识别方法。方法第一阶段,为防止丢失先前层的信息,提出了Token信息补充模块,利用k层的Class Token来获得更全面的特征信息;第二阶段,为解决特征复杂的图像识别问题,提出了特征交互模块,通过交叉注意力机制和自注意力机制融合ViT全局特征和MobileNetV3局部特征。在提高识别准确率的基础上,提出了两阶段注意力模块,用于缓解多头注意力可扩展性问题,从而进一步减少参数计算量。结果实验表明,在State Farm数据集和课题组自建的客运车辆分心驾驶行为数据集上,本文方法准确率分别达到99.69%、96.87%,较主干网络ViT-B_16分别提升了1.86%、1.65%;相比于TransFG(transformer architecture for fine-grained recognition)模型,准确率分别提升了0.98%、1.04%,浮点数运算次数(floating point operations,FLOPs)分别降低了26.87%、17.23%。两个数据集上的整体性能均优于前沿的识别方法。结论本文提出的方法能够准确地识别真实场景下的分心驾驶行为,具有更好的鲁棒性,为分类任务领域研究提供了新思路。  
    关键词:智能交通;分心驾驶行为识别;Transformer;注意力机制;特征融合   
    12
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100637078 false
    更新时间:2025-05-14
    医疗影像AI技术在疾病检测、诊断和治疗中发挥关键作用,专家系统探讨了其现状、方法和进展,为后续研究提供参考。

    陈磊, 孙开聪, 吴交交, 石峰, 沈定刚

    DOI:10.11834/jig.240449
    img
    摘要:医疗影像人工智能(Artificial Intelligence, AI)作为医疗影像领域的重要技术,受到广泛关注与研究。医疗影像AI在疾病检测、诊断和治疗中发挥着关键作用,但目前在应用中仍面临众多挑战。本文对医疗影像AI的现状、主要方法和进展进行了系统性探讨,并对其在真实医疗场景中的表现进行了分析和总结。首先介绍了主要的医疗影像AI算法,包括AI映射模型、AI检测模型、AI分割模型和AI分类模型,并阐述了这些算法在医疗影像中的应用和进展。然后重点阐述了全栈全谱的理念,全面介绍了其在医疗影像中的应用,包括人工智能在MR(magnetic resonance)成像、CT(computed tomography)成像和PET(positron emission tomography)成像中的影像重建应用与进展。接着描述了脑卒中一站式流程中的AI应用场景,包括出血性脑卒中和缺血性脑卒中的AI解决方案、危险因子的识别与管理,以及智能诊疗流程。进一步介绍了肺癌防治流程中的AI应用,从早期筛查和靶重建、表征量化分析、恶性风险评估,到三维术前规划、随访评估及结构化报告自动生成,全面展示了AI在肺癌防治中的应用。最后介绍了心血管AI全流程,包括冠状动脉精准成像、钙化积分智能早筛、三维分析辅助诊疗及其他疾病中的探索。本文总结了当前医疗影像AI的研究现状与未来发展方向,并对相关文献进行了回顾与分析,为后续研究提供了参考。  
    关键词:医疗影像;人工智能;深度学习;全栈全谱;医疗场景   
    19
    |
    2
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 100636070 false
    更新时间:2025-05-14
    在深度学习领域,研究人员总结了增量学习的最新进展,为解决灾难性遗忘问题提供新思路。

    付浩, 冯前, 涂嘉航, 赵涵斌, 张超, 杜歆, 钱徽

    DOI:10.11834/jig.240790
    img
    摘要:海量的数据和计算机强大的计算能力使深度模型在众多单模态和多模态任务上取得优异性能。当前高性能深度模型通常在静态的学习场景中训练,模型只在全部的数据集上进行一次联合训练。然而,在实际应用中,数据是不断产生的,任务是以多批次的形式持续地到达,在这种环境下,深度模型需要面临动态的学习场景,即增量学习场景。由于无法同时访问所有的旧任务数据,增量学习场景中的深度模型在训练时会面临灾难性遗忘问题。如何缓解灾难性遗忘问题是增量学习领域的重要研究目标。本文围绕增量学习领域的研究进展,从增量学习问题定义、评估指标、增量学习范式和增量学习挑战总结增量学习相关背景;从模型参数正则化、样本重放、模型结构化和预训练模型微调4个角度汇总增量学习最新方法;从语义分割、图像生成和文本生成3个单模态领域应用以及视觉—语言、音频—视觉两个多模态领域应用归纳增量学习应用及相关方法。从国内和国外两个角度对比增量学习领域的科研投入和发展情况,并对增量学习领域的未来发展进行展望。本文可为研究人员和从业人员提供增量学习领域的最新进展。  
    关键词:增量学习(IL);持续学习;灾难性遗忘(CF);机器学习;深度学习   
    26
    |
    5
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 99645162 false
    更新时间:2025-05-07
    多模态大模型安全风险研究取得进展,为应对独特安全挑战提供视角,促进技术发展。

    郭园方, 余梓彤, 刘艾杉, 周文柏, 乔通, 李斌, 张卫明, 康显桂, 周琳娜, 俞能海, 黄继武

    DOI:10.11834/jig.250067
    img
    摘要:多模态大模型的安全性研究已成为当下人工智能领域的焦点。由于大模型以深度神经网络为核心构建,因此与深度神经网络类似,存在多种安全风险。此外,由于其特有的复杂性,以及广泛的应用场景,也使得大模型面临一些独特的安全风险。本文系统地总结多模态大模型的安全风险,包括对抗攻击、越狱攻击、后门攻击、版权窃取、幻觉现象、泛化问题、偏见问题等。具体来说,在对抗攻击中,攻击者通过构造微小但具有欺骗性的对抗样本,使大模型在面对带噪输入时产生严重的误判;越狱攻击利用大模型的复杂结构,绕过或破坏原有的安全约束和防御措施,使模型执行未授权的操作,甚至泄露敏感数据;后门攻击则通过在大模型的训练阶段植入隐秘的触发器,使模型在特定条件下做出攻击者预期的反应;未经授权的窃取者可能未经模型拥有者的同意随意分发或进行商业使用,将导致模型版权拥有者遭受损失;幻觉现象,即模型输出与输入不一致的问题;泛化问题即大模型当前应对部分新数据分布或风格的能力仍显不足;大模型在性别、种族、肤色、年龄等敏感问题上的偏向性可能引发伦理等问题。随后,针对这些安全风险分别介绍相应的解决方案。本文旨在为理解和应对多模态大模型的独特安全挑战提供一个独特的视角,促进多模态大模型安全技术的发展,引导未来相关安全技术的发展方向。  
    关键词:多模态大模型;大模型安全;对抗样本;越狱攻击;后门攻击;版权窃取;模型幻觉;模型偏见   
    69
    |
    14
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 99641073 false
    更新时间:2025-05-07
    在AIGC领域,2023至2024年间技术和产业快速发展,以大语言模型和降噪扩散模型为核心,推动创意产业“螺旋式向上发展”。

    郑屹, 黄向, 秦菲儿, 梁缘, 黄子瑄, 曹炎培, 陶鑫, 郑明悟, 杨皓天, 万鹏飞, 陈京炜, 黄心渊

    DOI:10.11834/jig.250005
    img
    摘要:2023年以来,随着数据和模型规模的增长,以大语言模型(large language model,LLM)和降噪扩散模型(denoising diffusion model)为代表的生成式技术的生成结果在多样性和品质上不断提高,这些大的生成式模型正在推动人工智能生成内容(artificial intelligence generated content,AIGC)领域的快速发展。本文以创意产业的核心需求为切入点,对AIGC2D/3D领域在2023—2024年间的技术和产业发展进行回顾与总结。首先总结生成式技术的发展背景和其市场应用价值。其次根据AIGC2D/3D领域各自的技术发展进行总结,可以清晰地感受到该技术正在快速地发展和变化,从以生成式对抗网络(generative adversarial network,GAN)为核心快速发展为以降噪扩散模型和Transformer结构为核心。新结构具有更强的表达能力、更丰富的多样性和更灵活的控制能力。在AIGC2D部分,以“高质量生成基础”、“可控性生成技术”和“可编辑性生成技术”为分类视角,对图像生成技术和视频生成技术分别进行梳理和总结;在AIGC3D部分,在总结3D数据多样性的表达方式基础上,以“输入数据的类型”、“输出数据的类型”、“生成方法”3个不同视角对相关技术进行梳理。接下来分别总结两类技术当前遇到的技术问题和产业应用问题,如何提供更符合产业创作标准和需求的新技术是AIGC2D/3D技术未来发展的重点方向。最后整体回顾过去20年间创意产业在技术发展带动下呈现出“螺旋式向上发展”的特征,并对技术发展的趋势提出一些思考与见解。  
    关键词:人工智能生成内容(AIGC);AIGC2D;AIGC3D;综述;产业应用   
    36
    |
    7
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 99641028 false
    更新时间:2025-05-07
    跨媒体分析与推理领域取得新进展,专家综述了知识图谱技术在跨媒体内容分析推理中的应用,为提高分析的解释性、回溯性和泛化能力提供解决方案。

    王树徽, 许倩倩, 黄庆明

    DOI:10.11834/jig.240413
    img
    摘要:跨媒体分析与推理在网络内容管理和服务等领域具有重要意义。然而现有方法在处理复杂的跨域、异构、多源数据时存在解释性、可回溯性和泛化能力不足的问题。大语言模型尽管在大量跨媒体分析任务中取得了显著成就,但其架构的黑盒属性和训练数据的时效性限制了模型的广泛有效性。相比之下,知识图谱技术以其结构化、语义化和可扩展性的特点,能够提供透明、准确、可回溯的推理过程,从而提高分析的解释性、回溯性和泛化能力。为了更好地促进跨媒体分析与推理研究的发展,本文对知识图谱技术在跨媒体内容分析推理中的应用进行了调研和综述,重点介绍了跨媒体知识图谱构建、表征和泛化推理3个关键问题,并讨论了当前跨媒体知识图谱研究中存在的问题、分析展望了未来的研究方向。  
    关键词:跨媒体计算;跨媒体知识图谱构建;跨媒体知识图谱表征;跨媒体知识推理与泛化;可信跨媒体智能   
    20
    |
    8
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 99640163 false
    更新时间:2025-05-07
    在文物领域,人工智能技术正推动着文物防护、保护、研究、管理与传播方式的变革,为文物行业应用发展与未来提供新方向。

    宋维涛, 廖聆宇, 张浩天, 李琳, 俞天秀, 赵永生, 韩霈泽, 刘思然, 陈坤龙, 曲亮, 刘晓平, 刘越, 王涌天

    DOI:10.11834/jig.240765
    img
    摘要:文物承载灿烂文明、传承历史文化、维系民族精神,生动诠释着中华民族文化自信的底气与底蕴。随着人工智能技术赋能各行各业,融入普罗大众生活的方方面面,整个文物行业也在人工智能技术的推动下进行着方法和理念的变革,势必影响着文物防护、保护、研究、管理与传播的方式,如何将人工智能应用于文物行业已成为研究人员十分关注的工作。本文面向文物领域防、保、研、管、用五大方向,从文物行业应用需求、传统研究方法、人工智能技术发展、人工智能应用于文物研究等几个方面进行论述,并探讨和展望了人工智能技术下文物行业应用发展与未来。  
    关键词:文化遗产;人工智能;深度学习;博物馆;文物保护   
    28
    |
    37
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 98368487 false
    更新时间:2025-04-29
    在煤矿图像去噪领域,专家提出了基于自适应掩码的自监督去噪算法,有效去除噪声并保留图像细节,展现出优越的鲁棒性和广泛的适用性。

    张亚茹, 刘健涛, 许国庆, 郝定溢

    DOI:10.11834/jig.240624
    img
    摘要:目的受煤矿井下粉尘浓度高和光照不均匀等因素的影响使得矿井图像容易产生不同水平的噪声,降低图像的局部对比度,丢失细节信息和边缘纹理特征,从而影响矿井图像的信息提取精度和视觉质量。针对上述问题,提出一种基于自适应掩码的矿井图像自监督去噪算法,主要包含自适应掩码、掩码集成以及自适应集成损失三个部分。方法首先,设计自适应掩码对矿井图像进行分块以减少后续计算消耗,逐次对各块中心像素外的边缘像素及角点像素进行掩码,避免恒等映射的同时增加数据多样性;然后,设计掩码集成对神经网络的输出和掩码区域进行重新组合,计算两者之间的Hadamard积以增强网络对噪声与信号边界的准确识别,综合考虑矿井图像的局部结构和全局特征,从而提升去噪后矿井图像的完整性和连贯性;最后,设计自适应集成损失,将集成图像作为训练标签,帮助模型更好理解矿井图像中局部特征和全局特征之间的关系,加入原始噪声图像增强模型对信号变化的敏感性,适应不同场景下的去噪任务。结果在煤矿井下图像数据集和4个公共数据集上进行实验,去噪后的图像质量在主观感受和客观指标上均优于其他对比算法,如在高斯噪声水平为50的巷道场景下,峰值信噪比/结构相似性指数(peak signal-to-noise ratio/structural similarity index, PSNR/SSIM)值比B2U(blind2unblind)、NBR2NBR(neighbor2neighbor)分别提高了4.2dB/0.055、2.99dB/0.077。在Kodak24(kodak lossless true color image suite)、BSD300(berkeley segmentation data set 300)、BSDS500(berkeley segmentation data set 500)数据集上,高斯噪声水平在5至50之间时,PSNR相较TBSN(transformer-based blind-spot network)、TBSN、NBR2NBR分别提升了1.09%、0.72%、0.68%。结论所提算法能够处理含有不同程度和类型噪声的矿井图像,有效去除噪声的同时保留图像的细节信息,展现出优越的鲁棒性和广泛的适用性。  
    关键词:自监督学习;矿井图像去噪;自适应掩码;Hadamard积;自适应集成损失   
    23
    |
    25
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 98368445 false
    更新时间:2025-04-29
    在图像水印领域,研究人员提出了一种频率感知驱动的深度鲁棒图像水印技术,显著增强了水印的不可见性和鲁棒性,在处理多种攻击时表现出优越性能。

    张国富, 李鑫, 苏兆品, 方涵, 廉晨思

    DOI:10.11834/jig.250094
    img
    摘要:目的近年来,基于深度学习的水印方法得到了广泛研究。现有方法通常对特征图的低频和高频部分同等对待,忽视了不同频率成分之间的重要差异,导致模型在处理多样化攻击时缺乏灵活性,难以同时实现水印的高保真性和强鲁棒性。为此,本文提出一种频率感知驱动的深度鲁棒图像水印技术(deep robust image watermarking driven by frequency awareness, RIWFP)。方法通过差异化机制处理低频和高频成分,提升水印性能。具体而言,低频成分通过小波卷积神经网络进行建模,利用宽感受野卷积在粗粒度层面高效学习全局结构和上下文信息;高频成分则采用深度可分离卷积和注意力机制组成的特征蒸馏块进行精炼,强化图像细节,在细粒度层面高效捕捉高频信息。此外本文使用多频率小波损失函数,引导模型聚焦于不同频带的特征分布,进一步提升生成图像的质量。结果实验结果表明,提出的频率感知驱动的深度鲁棒图像水印技术在多个数据集上均表现出优越性能。在COCO(common objects in context)数据集上,RIWFP在随机丢弃攻击下的准确率达到91.4%;在椒盐噪声和中值滤波攻击下,RIWFP分别以100%和99.5%的准确率达到了最高水平,展现了其对高频信息的高效学习能力。在ImageNet(a large-scale hierarchical image database)数据集上,RIWFP在裁剪攻击下的准确率为93.4%;在JPEG压缩攻击下的准确率为99.6%,均显著优于其他对比方法。综合来看,RIWFP在COCO和ImageNet数据集上的平均准确率分别为96.7%和96.9%,均高于其他方法。结论本文所提方法通过频率感知的粗到细处理策略,显著增强了水印的不可见性和鲁棒性,在处理多种攻击时表现出优越性能。  
    关键词:鲁棒图像水印;小波卷积神经网络;深度可分离卷积;注意力机制;多频率小波损失   
    26
    |
    20
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 98368392 false
    更新时间:2025-04-29
    最新研究突破微表情识别难题,提出融合多光流与KAN的识别方法,显著提升识别性能。

    常合友, 杨佳铮, 高广谓, 张键, 郑豪

    DOI:10.11834/jig.240572
    img
    摘要:目的微表情是由个体的内在情感反应引发的面部肌肉活动,在心理诊断、医学、刑侦测谎等领域有着广泛的应用场景。现有微表情识别方法大都利用单一光流获取面部运动差异,无法有效应对光照变化或表情强度不一致等问题。为了解决上述问题,本文提出一种融合多光流与KAN的微表情识别方法(multiple optical flow feature fusion,MOFFFN),通过捕获多层次、多角度的面部运动差异,提高微表情识别性能。方法首先,本文提取三种不同的光流特征,并构造光流融合模块以捕获这些光流特征水平和垂直方向的信息。其次,本文构造了一个新颖的特征提取模型,利用柯尔莫哥洛夫–阿诺尔德网络(Kolmogorov–Arnold networks,KAN)与卷积注意力机制捕捉微表情的细微变化,提取更具鉴别能力的特征。最后,本文还设计了一个高效的注意力下采样自注意力特征融合模块,能够在融合多光流特征的同时突出微表情变化的关键区域特征。结果本文使用主流的留一交叉验证法 (leave-one-subject-out-cross-validation, LOSOCV),分别在中国科学院微表情数据库第二版(Chinese Academy of Sciences micro-expression II, CASME II)、自发性动作与微动作数据库(spontaneous actions and micro-movements, SAMM)和高速自发性微表情数据库(spontaneous micro-expression corpus-high speed, SMIC-HS)三个公开数据集以及复合数据集(composite dataset, CD)上进行了验证。本方法在四个数据集上分别取得了91.79%,85.69%,86.56%和85.03%的未加权平均召回率(unweighted average recall, UAR),以及92.95%,89.1%,91.78%和87.63%的未加权F1分数(unweighted F1-score, UF1),性能优于主流的微表情识别方法。结论本文所提出的方法通过融合多种光流特征,利用KAN和注意力机制提取更具鉴别能力和鲁棒性的特征,显著提高了微表情识别的结果。本文代码将在论文被接收后公开:https://github.com/useless12138/mofffn。  
    关键词:微表情识别;光流;特征融合;KAN;自注意力机制   
    37
    |
    20
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 98368303 false
    更新时间:2025-04-29
    在显著目标检测领域,研究者提出了一种RGB-D显著目标检测方法,通过跨模态特征融合与边缘细节增强,有效提高了模型性能。

    宋霄罡, 谭裕平, 郭富强, 鲁晓锋, 黑新宏

    DOI:10.11834/jig.240653
    img
    摘要:目的RGB-D显著目标检测通过整合RGB图像和深度图像的互补信息,可以提高应对复杂和具有挑战性的场景的显著目标检测(salient object detection,SOD)能力,取得了比RGB显著性检测模型更好的性能,受到学术界高度关注。然而,现有的RGB-D 检测模型仍面临着如何高效利用输入的多模态信息进行融合以及如何提高显著目标边缘检测的精度等问题。方法为此,本文提出了一种跨模态特征融合与边缘细节增强的RGB-D显著目标检测方法,通过跨模态注意力融合增强模块(cross-modal attention fusion enhancement module,CAFEM),对不同模态的特征进行注意力整合使RGB图像和深度图像的互补信息充分融合,使模型充分利用多模态特征,从而提高了模型的性能。但是两种模态的输入容易出现背景信息混淆,噪声增多,深度图质量低和目标轮廓提取困难的情况。为应对上述问题,本文提出了一种卷积神经网络(convolutional neural networks,CNN)低层特征引导的边缘特征提取模块(boundary feature extraction module,BFEM),通过通道注意力对低层特征携带的噪声进行过滤,然后使用低层细节特征引导跨模态融合特征进行聚焦解码以得到更加准确的显著图像。结果基于4个RGB-D显著目标检测数据集上进行了大量实验,与16种代表性方法进行了定量和定性的实验对比,特别是在平均绝对值误差(mean absolute error, MAE)指标上,本文的方法相较于第二好的方法,在四个数据集上分别提升了6.9%、10.5%、9.7%和2.4%。结果表明了本文方法在各个场景下均有优异的表现。结论本文提出了一种用于RGB-D显著目标检测的跨模态特征融合与细节信息增强网络(cross-modal feature fusion and detail-enhanced network,CFADNet)。通过跨模态注意力融合增强模块(CAFEM),较好地实现了RGB特征与深度特征的融合。此外,构建了边缘特征提取模块(BFEM)提取低层细节特征,最终较为准确地定位显著物体并增强了边缘细节的清晰度。  
    关键词:显著性目标检测;注意力机制;跨模态;特征融合;边缘细节增强   
    35
    |
    29
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 98368229 false
    更新时间:2025-04-29
    在虹膜识别领域,专家提出了一种基于空间域与频域特征融合的虹膜PAD模型,有效提高了检测精度和合成虹膜识别能力。

    王财勇, 孙娴蕴, 李林, 赵光哲, 何召锋, 孙哲南

    DOI:10.11834/jig.240783
    img
    摘要:目的虹膜呈现攻击检测(presentation attack detection, PAD)是确保虹膜识别系统安全可靠的关键技术之一。针对现有检测方法在跨域场景下泛化性不足、难以有效检测合成虹膜的问题,提出一种基于空间域与频域特征融合的虹膜PAD模型。利用频域信息对环境变化的鲁棒性和合成/真实图像的频域差异,促使模型结合虹膜图像在空间域和频域中的互补特征,提升其检测精度和合成虹膜识别能力。方法首先对输入图像使用局部二值模式(local binary pattern, LBP)算法进行处理,生成空间域图像,接着使用离散余弦变换(discrete cosine transform, DCT)将空间域图像转换为频域图像;然后利用两个EfficientNet_b0作为骨干网络,分别对空间域和频域图像进行特征提取;进一步地,通过两个空间通道融合注意力模块分别融合骨干网络所提取的中、高层特征;最后,在使用二元交叉熵损失函数的基础上,引入三元组损失进行联合训练,以提升模型所提特征的区分度。此外,为了让模型重点关注图像中的虹膜区域,还引入了低频语义信息引导的注意力模块。结果在最新的虹膜PAD比赛LivDet-Iris 2023数据集上,将本文方法与比赛中的冠军方法及多种现有方法进行了比较。相比于冠军方法,本文方法的综合检测错误率ACER1和ACER2分别下降了9.32%和3.71%,其中合成虹膜的平均检测错误率APCER下降了22.78%,打印虹膜的检测错误率APCER下降了6.32%。相比于其他最先进的现有方法,本文方法的综合检测错误率ACER1和ACER2分别下降了8.91%和3.58%。此外,还在LivDet-Iris 2023数据集上进行了消融实验以验证所提模块的有效性,结果显示加入频域信息有效提升了模型分类真假虹膜的准确率。结论本文所提出的虹膜呈现攻击检测模型有效利用了图像的空间域和频域信息,提高了模型检测各类型虹膜呈现攻击的能力,且表现出更好的泛化性。  
    关键词:呈现攻击检测;虹膜识别;多域特征融合;注意力机制;合成虹膜   
    32
    |
    22
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 98368154 false
    更新时间:2025-04-29
0