Explaining and Harnessing Adversarial Examples
Metadane
- Autorzy: Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy
- Rok: 2015
- Źródło: ICLR 2015 (arXiv 1412.6572, submitted 2014)
- DOI: arXiv:1412.6572
- Status: reference
- Cytowania: ~25,000
- Kategoria: Machine Learning / Security
- Tagi: reference fgsm adversarial foundational iclr high-citations
Streszczenie
Praca wprowadza FGSM (Fast Gradient Sign Method) — pierwszy efektywny algorytm generowania adversarial examples. Kluczowa obserwacja: sieci neuronowe są podatne na perturbacje niezauważalne dla człowieka, ponieważ modele są zbyt liniowe w high-dimensional przestrzeniach. FGSM to single-step attack: x_adv = x + ε·sign(∇_x L(f(x), y)).
FGSM jest punktem wyjścia dla całej klasy gradient-based attacks: PGD (Madry 2018) to wielokrokowy FGSM, C&W (2017) to silniejsza wersja. Wszystkie ataki adwersaryjne na logo detektory (Lee 2023, Hao 2024) mają swoje korzenie w tej pracy.
Kluczowe Wnioski
- FGSM: x_adv = x + ε·sign(∇_x J(θ, x, y)) — jeden krok, bardzo szybki
- Adversarial training jako obrona: trening na (x, x_adv) parach
- “Linearity hypothesis”: podatność wynika z liniowości modeli, nie ich nieliniowości
- Transferability: adversarial examples generują się między różnymi modelami (black-box attack)
- ~25k cytowań — praca definiująca dziedzinę adversarial ML
Zastosowanie w projekcie
Sekcja 2.4 Related Work (jeden akapit):
- FGSM jako punkt wyjścia: “Goodfellow et al. (2015) introduced FGSM, the foundational gradient-based attack. Madry et al. (2018) extended this to multi-step PGD, which we use for adversarial training of our visual module.”
M2c Adversarial verifier: FGSM jako szybki baseline attack (obok PGD):
# FGSM baseline (1 step, szybki)
x_adv_fgsm = x + epsilon * x.grad.sign()
# PGD (40 steps, silniejszy) — używamy do treninguNotatki
Obowiązkowe cytowanie przy każdej wzmiance o FGSM. Para z Madry 2018: “FGSM (Goodfellow et al. 2015) i jego wielokrokowe rozszerzenie PGD (Madry et al. 2018)“.