总策略:
1、生成替代模型来模拟近似受攻击模型的决策边界,根据常识来选择模型的大体结构,比如图像识别可以用CNN。
2、不知道训练数据,就要伪造。可以选一批随机数据,让受攻击模型给他们标签,再想个高效的办法,探测出误导方向。用到了雅可比行列式,在之前的数据上构造另一批数据(具体方法如下)再上标签,利用合成数据训练替代模型,学习到分类边界。
3、利用生成的模型来创造对抗样本
细节:
构造新数据:
对抗样本生成:
考虑Goodfellow的算法和papernot的算法
G:
在梯度方向上进行添加增量来诱导网络对生成的图片X’进行误分类
P:
adversarial saliency value
但是怎么得到的
不知道
隐含着某些先验知识(图像识别很多用cnn)
实验:
1、应用在MetaMind上的网络,分别采用从测试集里选的数据以及自己手写的数据集,(不知道他的网络结构怎么出来的)发现结果差不多,证明对不知道训练数据的情况下也是有效的
2、攻击算法校准:
调整了两个算法的参数进行比较
3、攻击传统模型,也适用
防御策略:gradient masking 无效