Evaluating the Robustness of Neural Networks: An Extreme Value Theory-Based Approach (C&W Attack)
Metadane
- Autorzy: Nicholas Carlini, David Wagner
- Rok: 2017
- Źródło: IEEE S&P 2017
- Link: https://arxiv.org/abs/1608.04644
- Status: reference
- Cytowania: ~10,000+
- Kategoria: Security / Adversarial ML
- Tagi: reference adversarial-attack cw-attack robustness-evaluation adaptive-attacker #2017
Streszczenie
Praca wprowadza rodzinę ataków C&W (Carlini-Wagner) — silniejszych niż FGSM/PGD w wielu scenariuszach — oraz ustanawia metodologię oceny odporności adversarial defenses. Kluczowa teza: obrona która nie jest testowana adaptacyjnym atakującym (znającym obronę) jest nieskuteczna. Wiele wcześniejszych “obron” zostało złamanych.
Kluczowe Wnioski
- C&W attack silniejszy niż FGSM/PGD dla wielu modeli (perturbacje mniejsze, wyższy ASR)
- Adaptive attacker principle: ocena odporności musi zakładać atakującego który wie o obronie i optymalizuje atak pod nią
- Gradient masking / obfuskacja gradientów: daje złudne poczucie bezpieczeństwa — C&W i BPDA go obchodzą
- Distillation defense (Papernot 2016) — złamana przez C&W
- Certyfikowana robustność (randomized smoothing) jest silniejsza niż empiryczna
Metodologia
- Trzy warianty: C&W L₀, L₂, L∞
- Optymalizacja perturbacji przez Adam optimizer z box constraint
- Testowanie na MNIST, CIFAR-10, ImageNet
Notatki
Rola w projekcie: Cytowany w outline.md §3.1b jako uzasadnienie zakresu obrony (“ograniczenia są standardowe — Carlini & Wagner 2017”). Stanowi metodologiczne uzasadnienie dlaczego M4 (DOM timing) nie musi bronić przed webpack-obfuskowanymi atakami gdy jest to explicite wymienione w Limitations. Recenzenci top security venues znają tę pracę — argument “poza zakresem adaptive attacker” musi być dobrze uzasadniony.