Explaining and Harnessing Adversarial Examples

Metadane

Autorzy: Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy
Rok: 2014
Źródło: arXiv:1412.6572
Status: to-read
Pochodzenie: Wyekstrahowane z xu-edog-adversarial-2023
Tagi: to-read reference adversarial-examples fgsm adversarial-training

Streszczenie

Fundamentalna praca wyjaśniająca fenomen adversarial examples w deep neural networks. Wprowadza Fast Gradient Sign Method (FGSM) do generowania adversarial perturbations i adversarial training jako defense mechanism.

Pokazuje że adversarial examples nie są random artifacts ale wynikają z linear nature modeli w high-dimensional spaces. Proponuje adversarial training: augmentacja training dataset z adversarial examples.

Kluczowe Wnioski

Adversarial examples wynikają z linearity, nie overfitting
FGSM: prosty gradient-based attack (x’ = x + ε·sign(∇_x L))
Adversarial training jako regularization technique
Transferability: adversarial examples generalizują między modelami
Foundation dla adversarial ML research

Notatki

Publikacja dodana automatycznie z bibliografii. Fundamentalna praca z adversarial ML dla continuous data (images) - kontrast z discrete graph data gdzie gradient-based methods nie działają bezpośrednio.

Relevancja dla xu-edog-adversarial-2023:

Motywacja: adversarial ML jest dobrze zbadane dla images, ale graph data wymaga nowych podejść
Gradient-based attacks nie działają dla discrete adjacency matrix
Defense methods (adversarial training, denoising) trudne do zaaplikowania na graphs
EDoG proponuje detection zamiast defense/denoising

Research

Przeglądaj

Explaining and Harnessing Adversarial Examples

Explaining and Harnessing Adversarial Examples

Metadane

Streszczenie

Kluczowe Wnioski

Notatki