Large-scale JPEG steganalysis using hybrid deep-learing framework 学习笔记

摘要 - 深度学习框架最近在许多模式识别问题中实现了卓越的性能。然而,在图像隐写分析中采用深度学习仍处于初始阶段。在本文中,我们结合了丰富的隐写模型的知识,提出了一个混合深度学习框架,用于JPEG隐写分析。我们证明卷积阶段和丰富模型的量化和截断阶段在深度卷积神经网络中是不可学习的。基于理论分析,我们提出的框架包括两个主要阶段。第一阶段是手工制作的,对应于卷积阶段和丰富模型的量化和截断阶段。第二阶段是包含三个深层子网的复合深层神经网络,其中在训练过程中学习模型参数。通过这样做,我们巧妙地将丰富模型的一些优点结合到我们提出的深化学习框架中。我们对从ImageNet提取的大规模数据集进行了广泛的实验。我们的实验中使用的主要数据集包含500,000张封面图片,而我们最大的数据集包含五百万张封面图片。我们的实验表明,提出的框架优于所有其他最先进的隐写分析模型,手工制作或学习使用深度网络的文学。此外,我们证明我们的框架是不敏感的JPEG块人工改造和学习的模型可以很容易地转移到不同的攻击目标。这两种性质在实际应用中是至关重要的。根据我们最好的知识,这是深度学习图像隐写验证大型测试数据方面的第一个报告。

索引术语 - 混合深度学习框架,CNN网络,隐写分析,隐写术。

1.介绍:

信息隐藏是一种隐蔽通信技术。作为隐写术的对手,隐写分析尝试检测秘密消息的存在[1]。数字图像是最好的cover媒体之一,因为它们易于获取并在互联网上广泛分布。因此,图像隐写术和隐写分析近年来已成为一个积极的话题。图像隐写可以分为两个主要类别:空间域和频域隐写。后者主要侧重于JPEG图像,由于其普遍存在的性质。这两种类型的最先进的算法采用内容自适应嵌入方案[2],[3]。这些方案中的大多数使用定义为所有改变的元素的嵌入成本的和的加性失真函数。从早期的HUGO [4]和WOW [5]到最新的HILL [6],MVG [8],[9]和MiPOD [10],过去几年见证了空间域在JPEG域中,UED [11]和UERD [12]是具有良好安全性能的两种加法方案。在[13]中提出的UNIWARD是一个加性失真函数,可以应用于嵌入在空间和JPEG域。其JPEG版本,J-UNIWARD,实现最佳性能[12],[13]。对非加性失真函数的研究在空间域方面取​​得了很大的进展[14,15]。然而,在JPEG域中尚未提出类似的方案。虽然利用预封面图像(原始或未压缩)的边信息可以提高JPEG隐写术的安全性[12],[13],由于预覆盖图像的可用性很少,其适用性仍然有限。

另一方面,隐写分析从早期的目标隐写算法演变成先进的通用隐写框架。大多数现代通用隐身探测器使用具有数万特征的丰富模型[16] - [19]和综合分类器[20]。在空间域中,SRM [16]及其选择通道感知变量[17] - [19]是至高无上的。在JPEG域中,DCTR [21]特征集组合了相对低的维度和竞争性能,而PHARM [22]表现出更好的性能,但是以更高的维度w.r.t DCTR。在[23]中提出的SCA是针对内容自适应JPEG隐写术的富JPEG模型的选择信道感知变体。近年来,在GPU(图形处理单元)加速的并行计算和大量培训数据的帮助下,深度学习框架在许多模式识别和机器学习问题中已经取得了优于传统方法的优势。图像隐写分析的研究人员也试图调查这一领域深层学习框架的潜力[25] - [27]。 Tan et al。探讨了层叠卷积自动编码器的应用,它是图像隐写分析中深度学习框架的一种特殊形式[25]。 Qian et al。提出一种基于CNN(卷积神经网络)的计算机,实现接近SRM的性能[26]。 Xu et al。构造另一个基于CNN的steganalyzer [27]配备BN(批量标准化)层[28]。其性能轻微超过SRM。然而,所有上述方法[25] - [27],关注空间域隐写分析,都是在BOSSBase(v1.01)数据集上进行评估[29]。 BOSSBase可能不代表真实世界的隐写分析性能[30]。只有10,000张图片,在BOSSBase培训的深度学习框架倾向于过度。此外,没有一个现有研究解决了深度学习框架在JPEG隐写分析中的应用。在本文中,我们提出了一个用于大规模JPEG隐写分析的混合深度学习框架。我们首先证明,CNNs不能有效地学习丰富模型的两个关键组成部分,即用于提取各种噪声残差的卷积核和用于降低模型复杂度的阈值量化器。基于理论分析,我们提出的框架将底层手工制作的卷积核和阈值量化器对与上部紧凑型深度学习模型相结合。对从ImageNet提取的大规模数据集进行的大量实验表明,我们提出的框架的性能优于基于丰富模型的steganalyzer和其他基于深度学习的steganalyzer在文献中。此外,所提出的混合深度学习框架展现出良好的属性,包括不同隐写算法之间的良好传递性和对JPEG块伪影的改变的不敏感性。本文的其余部分安排如下。教派。 II提供了我们的方法的理论基础,然后详细描述了拟议的混合深度学习框架。在ImageNet图像上进行的实验结果在Sect。 III。最后,我们在Sect中做出结论。 IV。

2.我们提出的 JPEG隐写框架

本文首先提供了JPEG隐写分析的整体模型和CNN的训练过程作为初步的概述。 然后,我们证明两个命题,作为本文的理论基础。 最后,我们提出概念架构或我们提出的混合深度学习框架与两种类型的子网配置。

1.初步概述

用于JPEG隐写分析的最先进的丰富模型[21] - [23]将解压缩的JPEG图像作为输入。 就像它们的空间域对应物,JPEG丰富模型的特征提取过程可以分为三个阶段:

•卷积:目标图像与一组内核进行卷积以产生不同的噪声残差。 这个阶段的目的是尽可能地抑制图像内容。

•量化和截断(Q&T):计算每个残差的不同的量化和截断版本,以进一步改善结果特征的多样性,以及降低计算复杂度。

•池化:噪声残差中的值的聚合,以进一步降低特征维度。

以DCTR为例。给出一个MXN的JPEG图片首先解压对应到MXN的一个空域,64个8×8 DCT基本模式定义为

其中 w0=1/√2,当k>0时,Wk=1 x和B(k,l)进行卷积生成64个噪声残差U(k,l) 0<=k, l<=7

然后,每个U(k,l)中的元素用量化步长q量化,并截断到阈值T。DCTR特征是基于某些合并操作构建的,该合并操作收集量化和截断的绝对值的特定一阶统计 每个U(k,l)中的元素。

在[25]中,我们指出丰富模型的上述结构类似于CNN,其是交替的卷积层,调节层(例如BN层[28])和汇集层的级联。 不管层的类型,它们由具有可学习的权重和偏差的单元制成。 每个单元接收来自前一层的某些单元的输入,执行具有权重的点积,并且可选地跟随其以非线性点对点激活函数。 CNN可以使用反向传播进行训练。 给定CNN中的层级联表示为[L1,L2,...,Ln],其中L1是输入层,Ln是输出层。 令a(1)i表示层L1中单元i的激活(输出)。 对于L1,a(1)i是第i个输入。 W(1)ij表示与L1中的单元i和L1 + 1中的单元j相关联的权重,而b(1)j表示与L1 + 1中的单元j相关联的偏差。 在L1 + 1中单元j的输入的加权和被定义为:

并且a(1 + 1)j = f(z(1 + 1)j)其中f(·)是激活函数。 所有的W(1)ij和b(1)j的集合构成神经网络的参数化,并且分别表示为W和b。 W和b构成神经网络的参数集。 对于训练特征 - 标签对{(x(1),y(1)),...,(x(m),y(m))}的迷你批次,反向传播的目的是最小化 成本函数J(W,b)相对于W和b:

其中R(W)是正则化项并且J(W,b; x(h),y(h))是关于单个示例(x(h),y(h))的误差度量。 对于每个训练样本,反向传播算法首先执行前馈传递并计算层L2,L3等的激活直到输出层Ln。 然后,其将偏导数从输出层Ln传播回到第二最后层L2。 关于W(1)ij和b(1)j,l = n,n-1,...,2的偏导数计算为:

梯度下降用于找到最优的W和b。 在优化过程中,它根据与m个梯度的平均值的负值成比例的步骤更新W和b,其中每个梯度是其分量是(5)[32]中的偏导数的向量。

2.我们提出的框架的理论基础

由于丰富的隐秘模型显示出与CNN的结构相似性[25,27],一个有趣的问题是CNN是否可能利用丰富模型背后的领域知识,特别是卷积阶段和Q&T阶段的特定核心矩阵。 在以下命题中,我们提供了一个负面的论证,并且声称不仅卷积阶段,而且丰富模型的Q&T阶段不能为CNN学习。

命题1.

1)用于在丰富模型中生成噪声残差的核矩阵不能从CNN中的卷积层的随机初始化的核中演进。 即使使用传统的数据预处理策略,这个问题也是不可解决的。

2)更好的执行内核不能从具有与丰富模型中使用的参数相同的参数的内核演化,只要模型用梯度下降训练。

证明:先进的隐秘特征提取器,在空间域或在JPEG域,采取目标图像的空间表示作为输入[16] - [19],[21] - [23]。 因此,灰度输入图像可以表示为X =(xpq)M×N = C + N,其中C =(cpq)M×N,cpq∈[0,255]表示对应的封面图像,N = )M×N表示添加隐形噪声。 当X是无隐写图像时,N是零矩阵。 当通过嵌套嵌入方案生成的非平衡域图像时,npq∈{-1,0,1}表示零平均隐秘噪声。 当X是JPEG域隐形图像时,由于零均值±1稳态噪声直接添加到量化DCT系数的事实,情况相对复杂。

鉴于JPEG的目标图片x~代表的式子是x~=c~+n~,其中C~表示的是对应的量化DCT系数,而N~是一个n~pq的MXN的矩阵表示的是添加在DCT系数上的+-1噪声。由于DCT/IDCT的线性变换特征,{X,C,N}和{X~,C~,N~}服从下列等式成立

其中Q=(q pq)MXN是是量化矩阵,◦表示逐元素乘积。 也就是说,解压缩的JPEG图像的空间域表示中的对应隐秘噪声仍然是相加的,并且是N的线性映射。因此,由于energy conservation principle:

其中使用Frobenius范数来测量噪声的能量。

为了不引入可见的和统计上可检测的伪像,现有技术的JPEG隐写算法(例如J-UNIWARD和UERD)试图仅修改低频非零系数。 结果,首先非零±1 n~pq相对于整个DCT系数的比例小,其次,q pq乘以每个非零n~pq的幅度相对较小,因为低频系数被分配了小的量化步长。 因此,(8)的右手侧的总能量通过最先进的JPEG隐写算法保持尽可能小。 此外,由于N的元素不相关,因此IDCT变换在(8)的左手侧中扩展(npq)M×N的元素之中的噪声的能量。 因此,即使对于具有高嵌入速率的隐身JPEG图像,N矩阵的大多数元素的量值相对于C的对应元素仍然很小。

为了验证上述结论,我们从基本的50K(参见第III-A)数据集中产生了0.4 bpnzAC(每个非零覆盖AC DCT系数的位数)的50,000个J-UNIWARD隐写图像。我们只考虑了他们的空间表示。我们的主要关注是| cpq |,空间域中的覆盖像素的量值与| npq |,由J-UNIWARD引入的空间域中的对应的隐秘噪声的比率。 | cpq |的比率的频率分布的平均值舍入| npq |对于具有非零四舍五入绝对值的那些npq,在图5中示出。 1。 1,我们可以看出,平均来说,覆盖像素的幅度远大于J-UNIWARD在空间域中引入的相应的隐秘噪声。平均频率分布的平均值为88.04,这意味着| cpq |平均接近比| npq |大两个数量级甚至具有高达0.4bpnzAC的包埋率。假设我们要训练具有大小为m×n的内核的卷积层以产生噪声残差,则其应位于CNN层次的第二层。卷积只是具有本地连接和共享权重的点积。

猜你喜欢

转载自blog.csdn.net/u013379032/article/details/81088677