识别|避免自动驾驶事故,CV领域如何检测物理攻击?(12)
2.3 对音频物理对抗攻击的防御
不一致推导:作者利用预测激活的不一致性来检测音频中的物理对抗性攻击 , 即 , 衡量预测类别相同的实际输入和合成数据之间的激活幅度分布不一致性指标 。 作者利用皮尔逊相关系数(Pearson Correlation Coefficient , PCC)定义不一致度量如下:
文章图片
其中 , I_pra 和 I_exp 分别代表最后一个卷积层对实际输入和合成输入的激活 。 μ_a 和μ_o 表示 f_pre 和 f_exp 的平均值 , σ_pra 和σ_exp 是标准差 , E 表示总体期望值 。
自我验证的检测 。 进一步的 , 将自我验证应用于 CNN 的音频物理对抗性攻击 。 首先 , 通过用标准数据集测试 CNN , 获得最后一个卷积层中每个可能的输入词的激活值 。 然后 , 计算不一致度量指标 D(I_pra, I_exp) 。 如果模型受到对抗性攻击 , D(I_pra, I_exp)会大于预先定义的阈值 。 作者表示 , 根据他们用各种攻击进行的初步实验 , 对抗性输入的 D(I_pra, I_exp)通常大于 0.18 , 而自然输入的 D(I_pra, I_exp)通常小于 0.1 。 因此 , 存在一个很大的阈值范围来区分自然和对抗性的输入音频 , 这可以有利于我们的准确检测 。
音频数据恢复 。 在确定了对抗性的输入音频后 , 对这部分音频进行数据恢复以满足后续应用的需要 。 作者提出了一个新的解决方案—"激活去噪" 作为音频数据的防御方法 , 其目标是从激活层面消除对抗性影响 。 激活去噪利用了上述最后一层的激活模式 , 这些模式与确定的预测标签有稳定的关联性 。 对抗性音频数据恢复方法如图 8 所示 。 基于检测结果 , 我们可以识别错误的预测标签 , 并在最后一层获得错误类别的标准激活模式 。 然后我们可以找到具有相同索引的激活 。 这些激活最可能是由对抗性噪声引起的 , 并取代了原始激活 。 因此 , 通过压制这些激活就可以恢复原始激活 。
文章图片
图 8. 音频对抗性攻击防御
2.4 实验分析
2.4.1 图像场景
在本文实验中 , 作者使用 Inception-V3 作为基础模型生成对抗性补丁 , 然后利用由此生成的高迁移性的补丁攻击两个 CNN 模型:VGG-16 和 ResNet-18 。 然后将本文提出的防御方法应用于所有三个模型 , 并测试其检测和恢复的成功率 。 实验中的基准方法是 Patch Masking , 这是一种最先进的防御方法[7] 。 不一致性的阈值设为 0.46 。
表 7 给出了总体检测和图像恢复性能 。 在所有三个模型上 , LanCe 的检测成功率始终高于 Patch Masking 。 进一步 , 本文提出的图像恢复方法可以帮助纠正预测 , 在不同的模型上获得了 80.3%~82% 的准确度改进 , 而 Patch Masking 的改进仅为 78.2% ~79.5% 。
推荐阅读
- 识别|外卖界又一黑科技 饿了么计划2022年覆盖100000顶智能头盔
- 语言识别|AI技术,让我们“听”懂聋人
- AI财经社|美团公布共享单车指纹解锁专利,网友调侃称期待人脸识别解锁
- Huawei|传大众与华为成立合资自动驾驶技术公司 回应称现阶段没有可以确认的消息
- 视点·观察|如何避免社交电商以“经销之名”行“传销之实”
- 模式|华为拍摄月亮专利获授权:可自动识别月亮并对焦
- 广西|秒级核验通行,广西机场推广刷身份证自动核验健康码
- 澎湃新闻|如何避免社交电商以“经销之名”行“传销之实”
- IT|达拉斯希望成为福特下一个自动驾驶汽车工厂的所在地
- 界面新闻|华为月亮拍摄专利获授权,可自动识别月亮并对焦