数字媒体深度伪造与对抗 | 浏览量 : 65 下载量: 115 CSCD: 0
  • 导出

  • 分享

  • 收藏

  • 专辑

    • 面向图像拼接检测的自适应残差算法

    • Adaptive residual algorithm for image splicing detection

    • 张玲

      穆文鹏

      陈北京

    • 2024年29卷第2期 页码:419-429   

      纸质出版日期: 2024-02-16

    • DOI: 10.11834/jig.230098     

    移动端阅览

  • 引用

    阅读全文PDF

  • 张玲, 穆文鹏, 陈北京. 2024. 面向图像拼接检测的自适应残差算法. 中国图象图形学报, 29(02):0419-0429 DOI: 10.11834/jig.230098.
    Zhang Ling, Mu Wenpeng, Chen Beijing. 2024. Adaptive residual algorithm for image splicing detection. Journal of Image and Graphics, 29(02):0419-0429 DOI: 10.11834/jig.230098.
  •  
  •  
    论文导航

    摘要

    目的

    恶意的图像拼接篡改给名誉、法律、政治等带来一系列的挑战,而现有的图像拼接检测算法通常采用参数固定的高通滤波器提取滤波特征进行预处理,没有考虑图像之间的差异。

    方法

    本文设计自适应残差模块(adaptive residuals module, ARM)凸显拼接篡改痕迹,将卷积运算后的残差多次拼接,且每次拼接后再利用注意力机制实现通道间的非线性交互。然后,使用通道注意力SE(squeeze and excitation)模块以减少由ARM提取残差特征产生的通道之间信息冗余,并以在图像分类领域获得卓越性能的EfficientNet(high-efficiency network)为骨干网络,提出一种新的图像拼接检测算法。

    结果

    实验结果表明,所提算法在CASIA I(CASIA image tampering detection evaluation database),CASIA II,COLUMBIA COLOR,NIST16(NIST special database 16)和FaceForensic++这5个公开数据集上分别取得98.95%,98.88%,100%,100%,88.20%的检测准确率,获得比现有算法更高的准确率。提出的ARM将骨干网络EfficientNet在CASIA II 数据集的准确率提高了3.94%以上。

    结论

    提出的基于自适应残差的图像拼接检测算法充分考虑图像之间的差异,凸显篡改区域与未篡改区域之间的区别,并获得更好的拼接检测结果。

    Abstract

    Objective

    In recent years, digital media have become central to the exchange of information in our daily lives. With the rapid development of image editing tools and deep learning techniques, tampering with transmitted images is easy. Image splicing is one of the most common types of image tampering. Malicious image splicing challenges reputation, law, and politics. Therefore, various approaches have been proposed for detecting image splicing forgeries. Deep learning has also been successfully applied in image splicing detection. However, the existing deep learning-based works usually preprocess the input images by extracting features filtered by the high-pass filters with fixed parameters, which does not consider the differences between images.

    Method

    Therefore, a new image splicing detection algorithm is proposed in this paper. First, an adaptive residual module (ARM) is designed to highlight the splicing traces. In the ARM, the residual after the convolution operation is serialized several times, and the attention mechanism is used to realize the nonlinear interaction between channels after each connection. Unlike ordinary filters with fixed parameters, the ARM module entirely relies on the feature reuse and attention mechanism of residuals to retain and enlarge the details of the splicing. Then, a squeeze and excitation (SE) module is used to reduce the inter channel information redundancy generated by ARM residual feature extraction. The SE module uses an average adaptive pool to generate channel statistics information on global space and the gating mechanism of the Sigmoid activation function to learn channel weights from channel dependencies. Finally, a new image splicing detection algorithm is proposed by combining with the proposed ARM and the backbone network EffcientNet, a model with excellent performance in image classification.

    Result

    Experimental results show the proposed algorithm achieves 98.95%, 98.88%, 100%, 100%, and 88.20% detection accuracies on CASIA image tampering detection evaluation database(CASIA I), CASIA II, COLUMBIA COLOR, NIST special database 16(NIST16), and FaceForensic++, respectively, and obtains higher accuracy than the existing algorithms. Moreover, the proposed ARM algorithm improves the accuracy of backbone network by 3.94% on the CASIA II dataset. Regarding the computational time, on the CASIA II dataset, the training time per batch of the proposed algorithm is 71.75 s, and the test time for a single image is 0.011 s, which is less than the existing algorithms. In addition, the size of the parameters of ARM is 0.003 6 MB, which is about 2‰ of the parameters size of the backbone network EfficientNet, and the FLOPs are about 0.037 G.

    Conclusion

    This paper proposes an image splicing detection algorithm based on ARM, and the proposed algorithm performs well on five public datasets. The designed ARM is a plug-and-play lightweight, adaptive feature extraction module, and it can be migrated on other models, such as Xception and ResNet.

    关键词

    图像取证; 深度神经网络; 图像拼接检测; 自适应残差; EfficientNet

    Keywords

    image forensics; deep neural network; image splicing detection; adaptive residual; EfficientNet

    论文引用格式:Zhang L, Mu W P and Chen B J. 2024. Adaptive residual algorithm for image splicing detection. Journal of Image and Graphics, 29(02):0419-0429(引用格式:张玲, 穆文鹏, 陈北京. 2024. 面向图像拼接检测的自适应残差算法. 中国图象图形学报, 29(02):0419-0429)[

    0 引 言

    近年来,数字媒体已经成为日常生活信息交流的主要形式,每天都会产生大量的图像不断扩大社交媒体网络(

    何沛松 等,2022)。在当今社会,即使没有经验的伪造者也可以借助用户友好型的图像编辑工具对照片进行任意修改,而不会留下太明显的篡改痕迹,如Photoshop(adobe photoshop)、CorelDraw(CorelDRAW graphics suite)等。其中图像拼接是最常见的图像篡改类型之一。它复制一幅或多幅源图像中的一块区域(往往包含一个目标)粘贴到另外一幅目标图像的某个位置,并在粘贴后对拼接区域采用模糊、平滑、润饰和融合等后处理操作来掩盖篡改痕迹,从而达到篡改图像内容的目的(张婧媛 等,2023)。图像拼接篡改的目的不少情况下是恶意的,如伪造司法证据、伪造银行电子票据、伪造虚假新闻等,这可能会导致严重的安全问题(Hadwiger和Riess,2022杨少聪 等,2022)。因此,有效地检测拼接伪造具有重要意义。

    与复制—移动及修复等篡改方式仅需单源图像不同,图像拼接篡改通常涉及多幅图像。由于来源图像复杂,拼接篡改通常会引入一些痕迹,比如拼接区域与原始区域的相机噪声差异、光照差异、色彩差异和纹理差异等。因此,检测这些操作痕迹是图像拼接检测的关键(

    Jain和Goel,2021)。现有的图像拼接伪造检测工作根据其特征提取方法,主要可分为两类:基于传统特征提取的检测方法和基于卷积神经网络的检测方法。前者主要利用相关技术提取上述痕迹中的一种或多种特征,但是这些特征容易在后续处理后(如压缩、变形、边缘软化、模糊和平滑等)变得难以检测。后者则依靠深度学习强大的特征学习能力获得了更好的性能(Chen 等,2021)。但是,利用卷积神经网络直接进行图像拼接检测时,往往倾向于学习图像的表征内容,容易忽略一些细微的拼接篡改痕迹(Rao和Ni,2016)。因此,一些工作(Rao和Ni,2016Zhang和Ni,2020)利用常用滤波器在检测前进行预处理,虽然也取得了较好的结果,但这些参数固定的滤波器仅能提取到固定滤波特征,没有考虑图像之间的差异,忽视了待检图像的个性化细节。

    因此,本文以在图像分类领域获得卓越性能的EfficientNet(high-efficiency network)为骨干网络,通过由多次拼接及残差操作构建的自适应残差模块(adaptive residuals module, ARM)凸显拼接篡改痕迹,并使用通道注意力SE(squeeze and excitation)模块来减少由ARM提取残差特征产生的通道之间的冗余,提出一种新的图像拼接检测算法。

    1 相关工作

    1.1 基于传统特征提取的图像拼接检测算法

    基于传统特征提取的方法通常利用图像自身遗留的痕迹,其大致可以分为4类。

    1)基于图像本质属性的检测方法(

    孙鹏 等,2017Wang 等,2009)通常利用图像自身属性进行检测,例如色彩差异,纹理及边缘差异等。Wang等人(2009)利用图像色度阈值边缘图像的灰度共生矩阵进行彩色图像拼接检测;孙鹏等人(2017)根据伪造图像中拼接区域与原始区域之间存在的色彩偏移量的差异,提出一种基于偏色估计的图像拼接检测算法。

    2)基于成像设备属性的检测方法(Mahdian和 Saic,2008;

    张旭 等,2019)通常利用图像拍摄设备遗留的特征进行检测。Mahdian和Saic(2008)利用拼接图像中的噪声不一致性进行检测;张旭等人(2019)使用光照的不一致性揭示图像篡改痕迹。

    3)基于图像压缩属性的检测方法(

    Lin 等,2009Ye 等,2007)通常关注图像经过压缩后的特有变化。Lin等人(2009)针对JPEG(joint photographic experts group)图像通过检测隐藏在离散余弦变换系数中的双量化效应来检测篡改图像。

    4)基于图像哈希技术的检测方法(

    Wang 等,2015Yan 等,2016)通常将图像映射成二进制或数字指纹序列,然后观察序列间的差异进行检测。Yan等人(2016)提出了一种基于四元数的图像哈希算法来检测图像篡改。

    传统检测方法一般只关注某一特定的图像属性,因此在现实任务中算法泛化性有待提升。

    1.2 基于卷积神经网络的图像拼接检测算法

    卷积神经网络(convolutional neural network, CNN)在计算机视觉的研究领域取得了很大的成功。CNN强大的特征提取和映射也促使其应用于图像拼接伪造检测。基于卷积神经网络的方法大致可以分为两类:

    1)直接利用高效分类网络进行检测(

    Nath和Naskar,2021张玉林 等,2023)。Nath和Naskar(2021)采用深度卷积残差网络架构作为主干,并与全连接的分类器网络结合,以实现真实图像和拼接图像的分类;张婧媛等人(2023)利用Transformer进行图像拼接检测。

    2)传统特征提取手段与卷积网络结合的方法(Abd El-Latif 等,2020;

    Pomari 等,2018Rao和Ni,2016)。该方法提取传统特征作为网络输入,如结合特殊富模型(special rich model,SRM)滤波器、成像设备属性等进行预处理。Rao和Ni(2016)率先采用SRM提取图像高频信息,然后将预处理后的图像输入深度卷积神经网络;Pomari等人(2018)利用图像拍摄时遗留的光照不一致传统特征并结合卷积神经网络进行检测,获得了较好的结果;Abd El-Latif等人(2020)提出了一种结合卷积神经网络和哈尔小波变换的算法。

    与传统方法相比,基于卷积神经网络的方法获得了更好的检测性能。但是其更倾向于学习图像的表征内容,容易忽略细微的拼接篡改痕迹,检测结果有待进一步提升。

    1.3 EfficientNet

    本文以EfficientNet作为骨干网络,该模型是由谷歌在ICML2019(

    Tan和Le,2019)上提出。在ImageNet(ImageNet large scale visual recognition challenge)分类问题中,EfficientNet模型以66 M的参数量取得84.4%的准确率,是现有较为先进的深度模型之一。与其他先进的模型不同,EfficientNet很好地平衡了网络深度、宽度和分辨率,通过一种新的缩放方法来提高性能。这种方法可以获得简单而高效的复合系数。它还使用了新的激活函数sigmoid线性单元(sigmoid weighted linear unit, SiLU),也称为Swish,以取代ReLU(rectified linear unit)来提高网络的准确性。

    本文主要使用EfficientNetB0模型作为整体算法构建的骨干。EfficientNetB0网络的结构如图1所示。该网络共分为9个模块,其中3 × 3或5 × 5表示深度可分离卷积(mobile inverted residual block, MBConv)的卷积核大小,每个MBConv后面都有一个乘数因子n(1或6),代表MBConv中的第1个1×1卷积层把输入特征矩阵的通道扩展n次。模块1是一个普通的卷积层,其内核大小为3 × 3,模块2—模块8为图1(b)所示的MBConv的重复堆叠,模块9由一个普通的1 × 1卷积、一个平均池化层和一个全连接层组成。值得注意的是,仅利用EfficientNet进行图像拼接检测时(

    Ahmed和Naskar,2021朱新同 等,2021),难以学习到一些细微的拼接篡改痕迹,从而导致检测性能不能令人满意,故本文将该模型作为骨干模型进行改进。

    fig

    图1  EfficientNetB0 模型的体系结构

    Fig.1  Architecture of the EfficientNetB0 model((a)overview of the EfficientNetB0 model; (b) MBConv block)

    icon 下载:  原图 | 高精图 | 低精图

    2 提出算法

    直接利用卷积神经网络进行图像拼接检测时,往往倾向于学习图像的表征内容,容易忽略细微的拼接篡改痕迹。先前的一些研究工作(

    Rao和Ni,2016Zhang和Ni,2020Zhao 等,2015)表明被篡改的图像包含特定的噪声特征,因此使用残差滤波器对输入图像进行预处理,如SRM(Rao和Ni,2016)、结合相减像素邻接模型(subtractive pixel adjacency model, SPAM)的滤波器(Zhao 等,2015)。这些滤波器可以充分将图像边缘和轮廓信息保留,并抑制图像中一些不必要的细节,从而凸显篡改痕迹。但是,这些滤波器使用的参数固定,没有充分考虑到图像之间的差异,忽视了图像的个性化细节,从而影响了检测性能。因此,本文构建了一种面向图像拼接检测的自适应残差,在预处理阶段凸显拼接篡改痕迹,并基于此提出一种新的图像拼接检测算法。

    2.1 算法整体框架

    本文算法以EfficientNet为骨干网络,设计ARM模块将图像进行预处理,引入通道注意力模块抑制因ARM扩充图像通道数而产生的冗余信息,整体架构如图2所示。在骨干网络EfficientNet前添加ARM模块及SE模块以希望通过稳定的残差提取丰富的拼接篡改特征。图2(b)为ARM模块的具体细节。

    fig

    图2  基于自适应残差的图像拼接检测

    Fig.2  Image splicing detection algorithm based on adaptive residuals

    ((a) overview of the proposed model; (b) details of the proposed ARM )

    icon 下载:  原图 | 高精图 | 低精图

    2.2 自适应残差提取模块

    为了获得稳定有效的残差信息,ARM借鉴了DenseNet(densely connected convolutional network)(

    Huang 等,2017)特征重用的思想,即通过多次拼接以获得稳定的残差。对初始获得的残差和经过卷积运算处理后的残差进行多次拼接,并且在每次拼接后再利用残差反馈中的注意力机制(Bi 等,2019)实现通道之间的非线性交互,以凸显未篡改区域和篡改区域之间的内在属性差异。与常见的滤波器使用固定参数不同,ARM模块充分依赖残差的特征重用和注意力机制保留并放大拼接的细节,以达到更好的预处理结果。图3展示了自适应残差与常见滤波器的可视化比较。从图3可以发现,经过ARM模块后的特征图更好地保留了拼接痕迹,放大了篡改区域与未篡改区域之间的差异。而其他滤波器无差别地提取了图像中几乎所有的纹理信息。例如,这两幅篡改图像的拼接区域为动物,对比的滤波器无差别地提取了纹理信息,包含山的边缘、栅栏等信息,而经过ARM的特征图尽可能地弱化了真实区域的纹理信息,对拼接区域的动物纹理信息进行了凸显,从而引导后续的检测。

    fig

      

    Fig.3  自适应残差与常见滤波可视化比较

    icon 下载:  原图 | 高精图 | 低精图

    Fig.3 Comparison of adaptive residuals and common filtering visualizations

    ((a) original images; (b) high pass filter; (c) SRM; (d) SPAM; (e) ARM)

    ARM模块整体运算公式为

    FARM=fARMθ,I (1)

    式中, fARM(·)代表自适应残差模块,θ是模块参数集合,I是输入图像,FARM为输出结果。

    ARM的具体细节如图2(b)所示。该模块首先通过一次卷积和减法,提取不稳定残差特征Fres

    Fres=Fconv-I (2)

    式中,Fconv代表经过卷积运算后的结果。然后,再利用三次拼接和两次注意机制构建稳定的残差用于图像拼接检测。FARM详细运算结果为

    F1=fconvFres, FresF2=fconvfattentionF1, F1FARM=fattentionFres, F1, F2 (3)

    式中,[ , ,…]代表n层特征图的拼接运算, fconv(·)代表卷积运算, fattention(·)代表注意力机制,Fi代表中间运算结果(i = 1,2)。ARM中涉及5个卷积层,具体网络设置如表1所示。

    表1  ARM模块网络设置
    Table 1  Network settings of the ARM modules
    网络层设置
    卷积层1 核3 × 3、步长1、填充1
    卷积层2 核3 × 3、步长1、填充1
    卷积层3 核3 × 3、步长1、填充1
    通道拼接运算1 输入通道3、输出通道6
    注意力层 -
    卷积层4 核3 × 3、步长1、填充1
    卷积层5 核3 × 3、步长1、填充1
    通道拼接运算2 输入通道6、输出通道12
    通道拼接运算3 输入通道12、输出通道15
    注意力层 -

    注:  “-”表示没有相关设置 。

    icon 下载:  CSV icon 下载:  表格图片

    ARM模块主要利用3 × 3卷积核在不过度增加参数量的情况下提升模块获得拼接痕迹的表达能力。卷积核的网络设置与一些经典算法(

    Huang 等,2017Tan和Le,2019)类似。该模块的总参数量约占提出算法整体总参数量的万分之二,是一个即插即用的轻量级自适应特征提取模块。具体参数量和FLOPs(floating point operations per second)评估可见表2,表中FLOPs为浮点运算次数。

    表2  两项改进措施以及提出算法的参数量和FLOPs统计
    Table 2  The statistics of parameters and FLOPs for the two improved measures and proposed algorithm
    算法参数量/MBFLOPs/G
    ARM 0.003 6 0.037
    SE 0.000 8 0.014
    ARM+SE+EfficientNetB0(本文) 15.31 0.503
    icon 下载:  CSV icon 下载:  表格图片

    2.3 基于通道注意力的残差提取模块

    ARM对输入图像进行预处理,获得稳定的残差表示,但多次拼接操作容易在通道上生成冗余信息。因此,本文还添加了一个SE模块(

    Hu 等,2018)来执行通道级注意力操作。SE模块整体运算公式为

    FSE=fSE(θ, x) (4)

    式中, fSE(·)代表SE模块,θ是模块参数集合,x是输入的特征,FSE是输出结果。该模块首先使用自适应平均池化生成全局空间的通道统计信息,然后采用带有sigmoid激活函数的门控机制从通道依赖项中学习通道权重,最后,对原始特征信息进行重新校准,将每个特征映射与对应的通道权值相乘,关注具有关键信息的通道特征,抑制非必要信息,消除ARM造成的冗余。SE模块的具体参数设置如表3所示。与现有工作(

    Hu 等,2018)一致,SE模块先利用全局自适应平均池化将ARM的输入信息压缩为1 × 1 × 15的向量,再使用全连接层进行降维和升维。

    表3  SE模块网络设置
    Table3  Network settings of the SE modules
    网络层设置
    全局自适应平均池化层 输出1 × 1 × 15
    FC全连接层1 输入通道15、输出通道7
    ReLU激活层 -
    FC全连接层2 输入通道7、输出通道15
    sigmoid激活层 -

    注:  “-”表示没有相关设置。

    icon 下载:  CSV icon 下载:  表格图片

    3 实验结果及分析

    3.1 实验设置

    3.1.1 实验数据

    基于深度学习的检测方法往往依靠数据驱动。因此,本文基于COCO(common objects in context)数据集(

    Lin 等,2014),利用Photoshop制作了8万幅假图像。这8万幅假图像与同样来自COCO数据集的8万幅真实图像相结合,用于预训练。为了进一步对提出方法进行实验分析,本文使用了5个标准的公开数据集,即CASIA I(CASIA image tampering detection evaluation database)(Dong 等,2013),CASIA II(Dong 等,2013),COLUMBIA COLOR(Hsu和Chang,2006),NIST16(NIST special database 16 )和FaceForensic++(FF++)(Rossler 等,2019)。CASIA I, CASIA II和COLUMBIA COLOR数据集由普通图像组成,而FF++是人脸视频数据集。表4提供了这5个数据集的一些细节,图4展示了部分数据集样本。

    表4  5个图像篡改数据集特征
    Table 4  Characteristics of five image forgery datasets
    数据集篡改方式真∶假是否后处理
    CASIA I 拼接 800∶921
    CASIA II 复制—移动,拼接 7 491∶5 123
    COLUMBIA COLOR 拼接 183∶180
    NIST16 复制—移动,拼接,删除 564∶564
    FF++ Face2Face, FaceSwap, DeepFakes, NeuralTextures 80 000∶80 000
    icon 下载:  CSV icon 下载:  表格图片
    fig

    图4  5个数据集样本举例

    Fig.4  Some samples from five used datasets

    icon 下载:  原图 | 高精图 | 低精图

    由于COLUMBIA COLOR和CASIA I数据集只包含拼接篡改,因此实验使用了这两个数据集的所有图像。如表4所示,CASIA II数据集中包含了多种篡改方式,如拼接和复制—移动,因此实验仅使用了1 828幅拼接篡改图像和2 000幅随机选择的真实图像。NIST16数据集中包含拼接、复制—移动和删除3种篡改方式,因此实验仅使用了288幅拼接篡改图像。FF++数据集中包含4种伪造方法,即Face2Face、FaceSwap、DeepFake和Neural Textures。这4种方法本质上都是将面部特征从源图像转移到目标面部图像,可以视为一种广义的图像拼接操作。该数据集将这4种篡改方式应用于从YouTube下载的1 000个视频,以获得原始数据集。此外,每个视频都有原始的版本(RAW image format,RAW),以及两种不同的压缩级别,即C23和C40。本实验从每个视频中以相等的间隔提取20帧,然后采用RetinaFace算法(

    Deng 等,2020)定位人脸区域,并将其调整为相同的大小。

    为了加速模型收敛并实现有效的参数初始化,本实验将训练数据的分辨率调整为225 × 225像素。与

    Nath和Naskar(2021)的工作一样,对于4个自然图像数据集,数据分别以8∶1∶1的比例分割为训练集、验证集和测试集。对于FF++数据集,与Rossler等人(2019)的工作类似,将每种伪造方法的1 000个视频以720∶140∶140的比例分割为训练集、验证集和测试集。此外,训练集在训练过程中通过旋转和翻转镜像进行数据增强。

    3.1.2 评价指标

    在实验分析中,本实验采用准确率(accuracy),精确率(precision)、召回率(recall)和F1作为评价指标。

    3.1.3 实验环境及训练细节

    实验在一台Intel(R) Core(TM) i76900K CPU @ 3.20 GHz, 62 GB RAM和单个GPU (GTX 1080Ti)的机器上进行。网络优化器采用AdamW(adam with decoupled weight decay)算法。初始学习率设置为1.0E-4,训练的批大小为32,其他参数设置均使用PyTorch中的默认值。

    在训练所提算法时,本实验采用常用的交叉熵损失作为损失函数。交叉熵损失函数表示为

    L=-1Ni=1N c=1K yiclogpic (5)

    式中,N表示样本数量,K表示类别数量,pic表示第i个样本属于类别c的概率,yic∈{0,1}表示第i个样本标签是否为c,是为1,否则为0。所使用的4个数据集的训练损失曲线如图5所示。可以看出,该模型在前150个迭代内收敛良好。

    fig

    图5  4个数据集的训练损失曲线

    Fig.5  Curves of training loss for the four used datasets

    icon 下载:  原图 | 高精图 | 低精图

    3.2 消融实验

    为了验证对EfficientNetB0模型的两项改进(ARM和SE)的有效性,在CASIA II数据集上进行了消融实验,结果如表5所示。可以看出,这两个额外的模块均提高了EfficientNetB0的性能,尤其是ARM,其准确率提高了3.94%以上,精确率提高了3.10%以上,召回率提高了4.50%以上,F1提高了3.81%以上。

    表5  在CASIA II数据集上的消融实验结果
    Table 5  Results of ablation study on the CASIA II dataset ( % )
    算法准确率精确率召回率F1
    EfficientNetB0 93.97 95.38 93.00 94.18
    EfficientNetB0+SE 95.03 95.48 95.00 95.24
    EfficientNetB0+ARM 97.91 98.48 97.50 97.99
    EfficientNetB0+ARM+SE 98.95 99.00 99.00 99.00

    注:  加粗字体表示各列最优结果。

    icon 下载:  CSV icon 下载:  表格图片

    3.3 对比实验

    在5个通用自然数据集上,本实验比较了所提算法与其他算法(Abd El-Latif 等,2020;

    Guo 等,2021Jalab 等,2022Liu 等,2021Nath和Naskar,2021Pomari 等,2018Rao和Ni,2016Shang 等,2021张婧媛 等,2023Zhang和Ni,2020)的检测结果。其中,FF++数据集包括3个不同压缩级别的子数据集,即原始质量(RAW)、高质量(C23)和低质量(C40)。对比结果如表6表7所示,其中对比算法的结果均来自其相应的原始论文。值得注意的是,由于部分参与对比的论文中仅展示检测准确率,故此处也仅展示准确率对比结果。

    表6  不同算法在4个普通图像数据集上的检测准确率
    Table 6  Detection accuracy of different algorithms on four ordinary image datasets ( % )
    算法CASIA ICASIA IICOLUMBIA COLORNIST16
    Yuan等人(2016) 98.04 97.83 - 91.67
    Pomari等人(2018) - - 89.00 -
    Abd El-Latif等人(2020) 94.55 96.36 -
    Zhang和Ni(2020) 94.21 97.39 99.17 85.09
    Nath和Naskar(2021) - 96.45 - -
    Jalab等人(2022) - 98.40 - -
    张婧媛等人(2023) - 96.68 98.03 -
    本文 98.88 98.95 100.00 100.00

    注:  加粗字体表示各列最优结果, “-”表示未进行评估。

    icon 下载:  CSV icon 下载:  表格图片
    表7  不同算法在人脸图像FF++数据集上的检测准确率
    Table 7  Detection accuracy of different algorithms on the face image FF++ dataset ( % )
    算法RAWC23C40
    Liu等人(2021) - 91.50 81.57
    Guo等人(2021) - 85.14 84.16
    Shang等人(2021) 99.17 96.15 86.13
    Hub􀅡lovský等人(2022) - 95.92 -
    本文 99.57 96.65 88.20

    注:  加粗字体表示各列最优结果, “-”表示未进行评估。

    icon 下载:  CSV icon 下载:  表格图片

    表6表7的实验结果表明:1)提出算法在所使用的5个数据集上的性能都明显优于其他算法;2) 虽然FF++数据集除了拼接之外还包含其他类型的图像伪造,但提出算法仍然在4个最近工作中获得了最好的性能;3)在表7中,随着压缩强度的增大,所有对比算法的检测准确率都有所下降,而提出算法仍然优于其他算法。准确率下降的主要原因是FF++数据集中的视频进行了高压缩,导致篡改痕迹显著损失,难以检测。提出算法在表6表7中较对比算法具有更好的性能,主要归功于EfficientNet骨干网络和提出的两项改进,即ARM和SE。EfficientNetB0是较为先进的通用图像分类模型之一,而ARM专注于自适应学习图像伪造特定的残留特征。

    此外,还将所提算法和EfficientNetB0以及现有一些工作(

    Nath和Naskar,2021Rao和Ni,2016张婧媛 等,2023)在CASIA II数据集上进行了时间复杂度对比。这4个对比工作均为可在本地复现的近期工作,以减少耗时对比的环境误差。训练耗时统计的是单个轮次(epoch)的训练时间,测试耗时统计的是单幅图像在算法中的测试时间。结果如表8所示。从表8可以看出,所提算法无论是训练耗时还是测试耗时均比这些对比工作(Nath和Naskar,2021Rao和Ni,2016张婧媛 等,2023)更短,主要原因是两项改进措施ARM和SE,以及骨干网络EfficientNetB0的参数量和算法复杂度都比较低;其次,从所提算法与其骨干网络EfficientNetB0对比可以明显看出,ARM和SE对骨干网络的耗时影响很少,训练耗时增加了不足20 s,实际使用相关的测试耗时仅增加了0.001 s。

    表8  不同算法在CASIA II数据集的训练和测试耗时对比
    Table 8  Comparison of training and testing time among different algorithms on the CASIA II dataset ( s )
    算法单轮次训练耗时单幅图像测试耗时
    EfficientNetB0 53.33 0.010
    Yuan等人(2016) 135.64 0.035
    Nath和Naskar (2021) 85.38 0.018
    张婧媛等人(2023) 285.95 0.080
    本文 71.75 0.011
    icon 下载:  CSV icon 下载:  表格图片

    4 结 论

    本文提出了一种基于ARM的图像拼接检测算法。该算法以在图像分类领域获得卓越性能的EfficientNet为骨干网络,设计了ARM模块,将输入的拼接图像在网络中进行预处理以凸显未篡改区域和篡改区域图像的本质属性差异。此外,算法中使用SE模块抑制ARM扩充图像通道数而产生的冗余信息。实验表明,所提算法在5个公开数据集上均取得了更好的检测结果。设计的ARM是一个即插即用的轻量级自适应特征提取模块,可以在其他模型上进行迁移,例如Xception,ResNet等。此外,由于当前先进的算法(包括本文提出的算法)都专注于针对明文图像进行拼接检测,因此未来可考虑设计针对加密图像的拼接检测算法,以保护用户个人图像的隐私。

    参考文献(References)

    Abd El-Latif E ITaha A and Zayed H H. 2020. A passive approach for detecting image splicing based on deep learning and wavelet transform. Arabian Journal for Science and Engineering454): 3379-3386DOI: 10.1007/S13369-020-04401-0 [百度学术] 

    Ahmed M S and Naskar R. 2021. Image splicing detection and localisation using efficientnet and modified U-Net architecture//Proceedings of the 10th International Conference on Internet of Everything, Microwave Engineering, Communication and Networks (IEMECON). Jaipur, IndiaIEEE: 1-5DOI: 10.1109/IEMECON53809.2021.9689172 [百度学术] 

    Bi X LWei YXiao B and Li W S. 2019. RRU-Net: the ringed residual U-Net for image splicing forgery detection//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach, USAIEEE: 30-39DOI: 10.1109/CVPRW.2019.00010 [百度学术] 

    Chen B JTan W JCoatrieux GZheng Y H and Shi Y Q. 2021. A serial image copy-move forgery localization scheme with source/target distinguishment. IEEE Transactions on Multimedia233506-3517DOI: 10.1109/TMM.2020.3026868 [百度学术] 

    Deng J KGuo JVerveras EKotsia I and Zafeiriou S. 2020. RetinaFace: single-shot multi-level face localisation in the wild//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USAIEEE: 5203-5212DOI: 10.1109/CVPR42600.2020.00525 [百度学术] 

    Dong JWang W and Tan T N. 2013. CASIA image tampering detection evaluation database//Proceedings of 2013 IEEE China Summit and International Conference on Signal and Information Processing. Beijing, ChinaIEEE: 422-426DOI: 10.1109/CHINASIP.2013.6625374 [百度学术] 

    Guo Z QYang G BChen J Y and Sun X M. 2021. Fake face detection via adaptive manipulation traces extraction network. Computer Vision and Image Understanding204: #103170DOI: 10.1016/J.CVIU.2021.103170 [百度学术] 

    Hadwiger B C and Riess C. 2022. Deep metric color embeddings for splicing localization in severely degraded images. IEEE Transactions on Information Forensics and Security172614-2627DOI: 10.1109/TIFS.2022.3189527 [百度学术] 

    He P SLi W CZhang J YWang H X and Jiang X H. 2022. Overview of passive forensics and anti-forensics techniques for GAN-generated image. Journal of Image and Graphics271): 88-110 [百度学术] 

    何沛松李伟创张婧媛王宏霞蒋兴浩. 2022. 面向GAN生成图像的被动取证及反取证技术综述. 中国图象图形学报271): 88-110DOI: 10.11834/jig.210430 [百度学术] 

    Hsu Y F and Chang S F. 2006. Detecting image splicing using geometry invariants and camera characteristics consistency//Proceedings of 2006 IEEE International Conference on Multimedia and Expo. Toronto, CanadaIEEE: 549-552DOI: 10.1109/ICME.2006.262447 [百度学术] 

    Hu JShen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USAIEEE: 7132-7141DOI: 10.1109/CVPR.2018.00745 [百度学术] 

    Huang GLiu ZVan Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USAIEEE: 2261-2269DOI: 10.1109/CVPR.2017.243 [百度学术] 

    Hub􀅡lovský ŠTrojovský PBacanin N and Venkatachalam K. 2022. Evaluation of deepfake detection using YOLO with local binary pattern histogram. PeerJ Computer Science8: #1086DOI: 10.7717/PEERJ-CS.1086 [百度学术] 

    Jain I and Goel N. 2021. Advancements in image splicing and copy-move forgery detection techniques: a survey//Proceedings of the 11th International Conference on Cloud Computing, Data Science and Engineering. Noida, IndiaIEEE: 470-475DOI: 10.1109/Confluence51648.2021.9377104 [百度学术] 

    Jalab H AAlqarni M AIbrahim R W and Ali Almazroi A. 2022. A novel pixel’s fractional mean-based image enhancement algorithm for better image splicing detection. Journal of King Saud University Science342): #101805DOI: 10.1016/J.JKSUS.2021.101805 [百度学术] 

    Lin T YMaire MBelongie SHays JPerona PRamanan DDoll􀅡r P and Zitnick C L. 2014. Microsoft COCO: common objects in context//Proceedings of the 13th European Conference on Computer Vision. Zurich, SwitzerlandSpringer: 740-755DOI: 10.1007/978-3-319-10602-1_48 [百度学术] 

    Lin Z CHe J FTang X O and Tang C K. 2009. Fast, automatic and fine-grained tampered JPEG image detection via DCT coefficient analysis. Pattern Recognition4211): 2492-2501DOI: 10.1016/J.PATCOG.2009.03.019 [百度学术] 

    Liu H GLi X DZhou W BChen Y FHe YXue HZhang W M and Yu N H. 2021. Spatial-phase shallow learning: rethinking face forgery detection in frequency domain//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USAIEEE: 772-781DOI: 10.1109/CVPR46437.2021.00083 [百度学术] 

    Mahdian B and Saic S. 2008. Detection of resampling supplemented with noise inconsistencies analysis for image forensics//Proceedings of 2008 International Conference on Computational Sciences and Its Applications. Perugia, ItalyIEEE: 546-556DOI: 10.1109/ICCSA.2008.34 [百度学术] 

    Nath S and Naskar R. 2021. Automated image splicing detection using deep CNN-learned features and ANN-based classifier. Signal, Image and Video Processing157): 1601-1608DOI: 10.1007/s11760-021-01895-5 [百度学术] 

    Pomari TRuppert GRezende ERocha A and Carvalho T. 2018. Image splicing detection through illumination inconsistencies and deep learning//Proceedings of the 25th IEEE International Conference on Image Processing. Athens, GreeceIEEE: 3788-3792DOI: 10.1109/ICIP.2018.8451227 [百度学术] 

    Rao Y and Ni J Q. 2016. A deep learning approach to detection of splicing and copy-move forgeries in images//Proceedings of 2016 IEEE International Workshop on Information Forensics and Security. Abu Dhabi, United Arab EmiratesIEEE: #7823911DOI: 10.1109/WIFS.2016.7823911 [百度学术] 

    Rossler ACozzolino DVerdoliva LRiess CThies J and Nießner M. 2019. FaceForensics++: learning to detect manipulated facial images//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South)IEEE: 1-11DOI: 10.1109/ICCV.2019.00009 [百度学术] 

    Shang Z HXie H TZha ZYu L YLi Y and Zhang Y D. 2021. PRRNet: pixel-region relation network for face forgery detection. Pattern Recognition116: #107950DOI: 10.1016/J.PATCOG.2021.107950 [百度学术] 

    Sun PLang Y BGong J C and Shen Z. 2017. Authentication method for splicing manipulation with inconsistencies in color shift. Journal of Computer-Aided Design and Computer Graphics298): 1408-1415 [百度学术] 

    孙鹏郎宇博巩家昌沈喆. 2017. 拼接篡改伪造图像的色彩偏移量不一致取证方法. 计算机辅助设计与图形学学报298): 1408-1415 [百度学术] 

    Tan M X and Le Q. 2019. EfficientNet: rethinking model scaling for convolutional neural networks//Proceedings of the 36th International Conference on Machine Learning. Long Beach, USAPMLR: 6105-6114 [百度学术] 

    Wang WDong J and Tan T N. 2009. Effective image splicing detection based on image chroma//Proceedings of the 16th IEEE International Conference on Image Processing. Cairo, EgyptIEEE: 1257-1260DOI: 10.1109/ICIP.2009.5413549 [百度学术] 

    Wang X FPang K MZhou X RZhou YLi L and Xue J R. 2015. A visual model-based perceptual image hash for content authentication. IEEE Transactions on Information Forensics and Security107): 1336-1349DOI: 10.1109/TIFS.2015.2407698 [百度学术] 

    Yan C PPun C M and Yuan X C. 2016. Quaternion-based image hashing for adaptive tampering localization. IEEE Transactions on Information Forensics and Security1112): 2664-2677DOI: 10.1109/TIFS.2016.2594136 [百度学术] 

    Yang S CWang JSun Y L and Tang J H. 2022. Multi-level features global consistency for human facial deepfake detection. Journal of Image and Graphics279): 2708-2720 [百度学术] 

    杨少聪王健孙运莲唐金辉. 2022. 多级特征全局一致性的伪造人脸检测. 中国图象图形学报279): 2708-2720DOI: 10.11834/jig.211254 [百度学术] 

    Ye S MSun Q B and Chang E C. 2007. Detecting digital image forgeries by measuring inconsistencies of blocking artifact//Proceedings of 2007 IEEE International Conference on Multimedia and Expo. Beijing, ChinaIEEE: 12-15DOI: 10.1109/ICME.2007.4284574 [百度学术] 

    Zhang J YWang H X and He P S. 2023. Multitask Transformer-based network for image splicing manipulation detection. Computer Science501): 114-122 [百度学术] 

    张婧媛王宏霞何沛松. 2023. 基于Transformer的多任务图像拼接篡改检测算法. 计算机科学501): 114-122DOI: 10.11896/JSJKX.211100269 [百度学术] 

    Zhang R Y and Ni J Q. 2020. A dense U-Net with cross-layer intersection for detection and localization of image forgery//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona, SpainIEEE: 2982-2986DOI: 10.1109/ICASSP40776.2020.9054068 [百度学术] 

    Zhang XHu X YChen C and Peng S L. 2019. Image splicing detection based on spatial lighting consistency analysis under perspective projection. Acta Automatica Sinica4510): 1857-1869 [百度学术] 

    张旭胡晰远陈晨彭思龙. 2019. 基于透视投影下空间光照一致性分析的图像拼接篡改检测. 自动化学报4510): 1857-1869DOI: 10.16383/J.AAS.C190202 [百度学术] 

    Zhang Y LWang H XZhang R and Zhang J Y. 2023. Semantic consistency-relevant multitask splicing-tampered detection. Journal of Image and Graphics283): 775-788 [百度学术] 

    张玉林王宏霞张瑞张婧媛. 2023. 语义一致性引导的多任务拼接篡改检测. 中国图象图形学报283): 775-788DOI: 10.11834/jig.220549 [百度学术] 

    Zhao X DWang S LLi S H and Li J H. 2015. Passive image-splicing detection by a 2-D noncausal markov model. IEEE Transactions on Circuits and Systems for Video Technology252): 185-199DOI: 10.1109/TCSVT.2014.2347513 [百度学术] 

    Zhu X TTang Y Q and Geng P Z. 2021. Detection algorithm of tamper and deepfake image based on feature fusion. Netinfo Security, (8): 70-81 [百度学术] 

    朱新同唐云祁耿鹏志. 2021. 基于特征融合的篡改与深度伪造图像检测算法. 信息网络安全, (8): 70-81DOI: 10.3969/J.ISSN.1671-1122.2021.08.009 [百度学术] 

    文章被引用时,请邮件提醒。
    提交

    相关作者

    郭裕兰 国防科技大学电子科学学院
    万建伟 国防科技大学电子科学学院
    汪汉云 信息工程大学地理空间信息学院
    刘心溥 国防科技大学电子科学学院
    许可 国防科技大学电子科学学院
    潘治文 澳门大学科技学院电脑及资讯科学系
    苗启广 西安电子科技大学计算机科学与技术学院
    赵明华 西安理工大学计算机科学与工程学院

    相关机构

    信息工程大学地理空间信息学院
    国防科技大学电子科学学院
    澳门大学科技学院电脑及资讯科学系
    西安电子科技大学计算机科学与技术学院
    西安理工大学计算机科学与工程学院
    0