Explaining and Harnessing Adversarial Examples

Metadane

Autorzy: Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy
Rok: 2015
Źródło: ICLR 2015 (arXiv 1412.6572, submitted 2014)
DOI: arXiv:1412.6572
Status: reference
Cytowania: ~25,000
Kategoria: Machine Learning / Security
Tagi: reference fgsm adversarial foundational iclr high-citations

Streszczenie

Praca wprowadza FGSM (Fast Gradient Sign Method) — pierwszy efektywny algorytm generowania adversarial examples. Kluczowa obserwacja: sieci neuronowe są podatne na perturbacje niezauważalne dla człowieka, ponieważ modele są zbyt liniowe w high-dimensional przestrzeniach. FGSM to single-step attack: x_adv = x + ε·sign(∇_x L(f(x), y)).

FGSM jest punktem wyjścia dla całej klasy gradient-based attacks: PGD (Madry 2018) to wielokrokowy FGSM, C&W (2017) to silniejsza wersja. Wszystkie ataki adwersaryjne na logo detektory (Lee 2023, Hao 2024) mają swoje korzenie w tej pracy.

Kluczowe Wnioski

FGSM: x_adv = x + ε·sign(∇_x J(θ, x, y)) — jeden krok, bardzo szybki
Adversarial training jako obrona: trening na (x, x_adv) parach
“Linearity hypothesis”: podatność wynika z liniowości modeli, nie ich nieliniowości
Transferability: adversarial examples generują się między różnymi modelami (black-box attack)
~25k cytowań — praca definiująca dziedzinę adversarial ML

Zastosowanie w projekcie

Sekcja 2.4 Related Work (jeden akapit):

FGSM jako punkt wyjścia: “Goodfellow et al. (2015) introduced FGSM, the foundational gradient-based attack. Madry et al. (2018) extended this to multi-step PGD, which we use for adversarial training of our visual module.”

M2c Adversarial verifier: FGSM jako szybki baseline attack (obok PGD):

# FGSM baseline (1 step, szybki)
x_adv_fgsm = x + epsilon * x.grad.sign()
 
# PGD (40 steps, silniejszy) — używamy do treningu

Notatki

Obowiązkowe cytowanie przy każdej wzmiance o FGSM. Para z Madry 2018: “FGSM (Goodfellow et al. 2015) i jego wielokrokowe rozszerzenie PGD (Madry et al. 2018)“.

Research

Przeglądaj

Explaining and Harnessing Adversarial Examples

Explaining and Harnessing Adversarial Examples

Metadane

Streszczenie

Kluczowe Wnioski

Zastosowanie w projekcie

Notatki