Explaining and Harnessing Adversarial Examples

Metadane

  • Autorzy: Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy
  • Rok: 2015
  • Źródło: ICLR 2015 (arXiv 1412.6572, submitted 2014)
  • DOI: arXiv:1412.6572
  • Status: reference
  • Cytowania: ~25,000
  • Kategoria: Machine Learning / Security
  • Tagi: reference fgsm adversarial foundational iclr high-citations

Streszczenie

Praca wprowadza FGSM (Fast Gradient Sign Method) — pierwszy efektywny algorytm generowania adversarial examples. Kluczowa obserwacja: sieci neuronowe są podatne na perturbacje niezauważalne dla człowieka, ponieważ modele są zbyt liniowe w high-dimensional przestrzeniach. FGSM to single-step attack: x_adv = x + ε·sign(∇_x L(f(x), y)).

FGSM jest punktem wyjścia dla całej klasy gradient-based attacks: PGD (Madry 2018) to wielokrokowy FGSM, C&W (2017) to silniejsza wersja. Wszystkie ataki adwersaryjne na logo detektory (Lee 2023, Hao 2024) mają swoje korzenie w tej pracy.

Kluczowe Wnioski

  • FGSM: x_adv = x + ε·sign(∇_x J(θ, x, y)) — jeden krok, bardzo szybki
  • Adversarial training jako obrona: trening na (x, x_adv) parach
  • “Linearity hypothesis”: podatność wynika z liniowości modeli, nie ich nieliniowości
  • Transferability: adversarial examples generują się między różnymi modelami (black-box attack)
  • ~25k cytowań — praca definiująca dziedzinę adversarial ML

Zastosowanie w projekcie

Sekcja 2.4 Related Work (jeden akapit):

  • FGSM jako punkt wyjścia: “Goodfellow et al. (2015) introduced FGSM, the foundational gradient-based attack. Madry et al. (2018) extended this to multi-step PGD, which we use for adversarial training of our visual module.”

M2c Adversarial verifier: FGSM jako szybki baseline attack (obok PGD):

# FGSM baseline (1 step, szybki)
x_adv_fgsm = x + epsilon * x.grad.sign()
 
# PGD (40 steps, silniejszy) — używamy do treningu

Notatki

Obowiązkowe cytowanie przy każdej wzmiance o FGSM. Para z Madry 2018: “FGSM (Goodfellow et al. 2015) i jego wielokrokowe rozszerzenie PGD (Madry et al. 2018)“.

Elementów w folderze: 0.