Explaining and Harnessing Adversarial Examples
Metadane
- Autorzy: Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy
- Rok: 2014
- Źródło: arXiv:1412.6572
- Status: to-read
- Pochodzenie: Wyekstrahowane z xu-edog-adversarial-2023
- Tagi: to-read reference adversarial-examples fgsm adversarial-training
Streszczenie
Fundamentalna praca wyjaśniająca fenomen adversarial examples w deep neural networks. Wprowadza Fast Gradient Sign Method (FGSM) do generowania adversarial perturbations i adversarial training jako defense mechanism.
Pokazuje że adversarial examples nie są random artifacts ale wynikają z linear nature modeli w high-dimensional spaces. Proponuje adversarial training: augmentacja training dataset z adversarial examples.
Kluczowe Wnioski
- Adversarial examples wynikają z linearity, nie overfitting
- FGSM: prosty gradient-based attack (x’ = x + ε·sign(∇_x L))
- Adversarial training jako regularization technique
- Transferability: adversarial examples generalizują między modelami
- Foundation dla adversarial ML research
Notatki
Publikacja dodana automatycznie z bibliografii. Fundamentalna praca z adversarial ML dla continuous data (images) - kontrast z discrete graph data gdzie gradient-based methods nie działają bezpośrednio.
Relevancja dla xu-edog-adversarial-2023:
- Motywacja: adversarial ML jest dobrze zbadane dla images, ale graph data wymaga nowych podejść
- Gradient-based attacks nie działają dla discrete adjacency matrix
- Defense methods (adversarial training, denoising) trudne do zaaplikowania na graphs
- EDoG proponuje detection zamiast defense/denoising