0. 说明
- 用魔法打败魔法
- 不在训练的角度改进
- 思路一: 在测试的时候, 通过 voting ASV, 让白盒的 ASV 多样化, 然后就复杂化了, 没办法进行白盒攻击 (这个是错误的理解思路)
- 思路二: 在测试的时候, 先根据 x0 生成很多周围的 xi, 很多个 xi 去进行 ASV, 然后投票进行答案. 这样打破了噪声 x0 精心构建的策略. 利用了两个假设: (1) 攻击是利用梯度回传取巧的 (2) 对于 ASV 的能力来说, 可以采用"近朱者赤近墨者黑"策略, 并且他周围都是正常的, 只是有极少个几个点是 "害群之马" (这个思路是对的)
- 那么平衡点在于, ASV 的团结能力, 与 攻击的团结能力的差异性, 以及 给定 x0, 去寻找它的周围的团队的方案, 之间是否能够调出来: 不影响 ASV 本身正确率, 并且抵抗住攻击. 正负样本都要考虑
1. Fast ResNet34
1.1. Fast ResNet34 with Self Attentive Pooling
- EER 比 Kaldi 还低 in Voxceleb 2.58%
1.2. Fast ResNet34 with Attentive Statistics Pooling
- EER 2.52%
- 经过 attention 之后 weighted mean 和 weighted std, TODO
2. Attack EPS
- EPS 代表噪声扰动, 添加了 5% 的 MSE 扰动, 就可以让不能通过的东西, 骗过系统, 通过系统. Fool
- 其中, 扰动的时候, 需要用很好的攻击办法
- FAR/FER 分别代表了正样本没通过 和 负样本没通过
- EPS 15% 在人耳朵是听不出来的, 是个假设
可以有一个类似的好玩的类比:
- 还没入学的学生 雷瞬, 进不来, ASV -> False
- 雷瞬拿着海滨的照片, 贴在脸上, ASV -> True, 但是保安会发现
- 雷瞬戴上口罩, 贴个眉毛, 整个发型, 保安也不会发现很奇怪, 同时长得也像海滨, ASV -> True, 攻击成功 (攻击网络结构梯度回传, 好的攻击办法效果好, 差的保安, 效果也会好)
- 如果进门的时候, 保安让雷瞬戴上口罩, 带下口罩, 去掉眉毛, 眨眨眼, 笑一笑, 发型动一动, 最终 ASV 投票是不是海滨, Voting ASV -> False, 攻击失败, 防御成功
3. Voting 理论方法
- 在不同的 EPS 下, 对 x 加高斯噪声, 得到 xi
- 对于 ASV 本身来说, x 和 xi 都会没问题, 因为 NN 本身对高斯噪声是鲁棒的
- 而攻击设计出来的 x_攻击, 他自己是"害群之马", 是特例, 它的周围的高斯噪声均是良民; 相当于利用高斯噪声把梯度回传设计攻击的方案给卡死了
- 有点像之前海滨的, 将一段语音切分成三段, 然后分别投票, 是这个思路的平行延伸
- Voting EPS 的选择, 也是很有技巧的, 需要在 ASV 正常的数据上, 进行一个极限的选取
- Voting 的方法: 可以加高斯噪声, 也可以加均匀噪声, 需要去思考: 什么是 NN 对于输入来说的 邻居了
引自: https://zhuanlan.zhihu.com/p/98982444, 谢谢~
4. 网络预测 STD
- 现在的网络的输入和输出, 均是进行均值的预测
- 但是有的神经网络, 也是可以预测出来 STD 的, TODO; 就可以破解他们的方法了
5. 相关实验
在 PPT 上
6. 本质好处
添加噪声后采样 Voting, 相当于 data argumentation
相当于增多了 ASV 的数据
而增多 ASV 的数据, 是有利于 ASV 系统的训练的, 同时是 有害于 攻击系统的训练的
- 把正常 samples 和它的10次高斯扰动们加入集合 A
- 把攻击得到的样本 和它的10次高斯扰动加入集合 B
- 需要同时满足 A 训练正确, B 攻击成功 (会卡的越来越死), 那么 A 和 B 均是原来的 10 倍, 所以是有利于防守, 不利于攻击的
7. 加攻击时域或者频域
7.1. 在时域加噪声
7.2. 在频域加噪声
8. 提升到大气层
其实这是个千层饼, 本身别人是通过加噪声来攻击 ASV
而我们又用加噪声, 产生很多 voting, 来攻击 攻击的系统