Evaluating the Robustness of Neural Networks: An Extreme Value Theory-Based Approach (C&W Attack)

Metadane

Streszczenie

Praca wprowadza rodzinę ataków C&W (Carlini-Wagner) — silniejszych niż FGSM/PGD w wielu scenariuszach — oraz ustanawia metodologię oceny odporności adversarial defenses. Kluczowa teza: obrona która nie jest testowana adaptacyjnym atakującym (znającym obronę) jest nieskuteczna. Wiele wcześniejszych “obron” zostało złamanych.

Kluczowe Wnioski

  • C&W attack silniejszy niż FGSM/PGD dla wielu modeli (perturbacje mniejsze, wyższy ASR)
  • Adaptive attacker principle: ocena odporności musi zakładać atakującego który wie o obronie i optymalizuje atak pod nią
  • Gradient masking / obfuskacja gradientów: daje złudne poczucie bezpieczeństwa — C&W i BPDA go obchodzą
  • Distillation defense (Papernot 2016) — złamana przez C&W
  • Certyfikowana robustność (randomized smoothing) jest silniejsza niż empiryczna

Metodologia

  • Trzy warianty: C&W L₀, L₂, L∞
  • Optymalizacja perturbacji przez Adam optimizer z box constraint
  • Testowanie na MNIST, CIFAR-10, ImageNet

Notatki

Rola w projekcie: Cytowany w outline.md §3.1b jako uzasadnienie zakresu obrony (“ograniczenia są standardowe — Carlini & Wagner 2017”). Stanowi metodologiczne uzasadnienie dlaczego M4 (DOM timing) nie musi bronić przed webpack-obfuskowanymi atakami gdy jest to explicite wymienione w Limitations. Recenzenci top security venues znają tę pracę — argument “poza zakresem adaptive attacker” musi być dobrze uzasadniony.

Elementów w folderze: 0.