逆向攻击
1. 攻击描述
攻击者利用黑盒模型输出中的置信度向量等信息将训练集中的数据恢复。(获取训练数据)
2. 攻击流程示意图
流程:
构建GAN
收集与目标生成器模型的数据集,这些数据集应该与目标模型所用的数据样本相似。设计并训练一个GAN模型,用于获取目标模型样本的先验分布,判别器负责区分生成样本和真实样本。
逐步逆向
通过迭代优化来逆向目标模型的训练数据。具体方法包括:选择一个随机噪声向量作为输入,并将其传递给生成器。通过GAN中判别器的Indentity loss最小化生成的样本与目标数据之间的差异,保证数据的真实性,Prio loss控制生成样本的类别,以此更新输入噪声向量。重复以上步骤直到循环轮次结束。
3. 指标情况
数据集 | 模型 | 原始模型准确率 | 逆向数据训练的模型准确率 |
CIFAR-10 | VGG-16 | 84.75% | 21.65% |
CIFAR-10 | ResNet-20 | 81.83% | 21.61% |
MNIST | VGG-16 | 99.46% | 67.28% |
MNIST | ResNet-20 | 99.30% | 17.79% |