Explaining and Harnessing Adversarial Examples

Metadane

Streszczenie

Fundamentalna praca wyjaśniająca fenomen adversarial examples w deep neural networks. Wprowadza Fast Gradient Sign Method (FGSM) do generowania adversarial perturbations i adversarial training jako defense mechanism.

Pokazuje że adversarial examples nie są random artifacts ale wynikają z linear nature modeli w high-dimensional spaces. Proponuje adversarial training: augmentacja training dataset z adversarial examples.

Kluczowe Wnioski

  • Adversarial examples wynikają z linearity, nie overfitting
  • FGSM: prosty gradient-based attack (x’ = x + ε·sign(∇_x L))
  • Adversarial training jako regularization technique
  • Transferability: adversarial examples generalizują między modelami
  • Foundation dla adversarial ML research

Notatki

Publikacja dodana automatycznie z bibliografii. Fundamentalna praca z adversarial ML dla continuous data (images) - kontrast z discrete graph data gdzie gradient-based methods nie działają bezpośrednio.

Relevancja dla xu-edog-adversarial-2023:

  • Motywacja: adversarial ML jest dobrze zbadane dla images, ale graph data wymaga nowych podejść
  • Gradient-based attacks nie działają dla discrete adjacency matrix
  • Defense methods (adversarial training, denoising) trudne do zaaplikowania na graphs
  • EDoG proponuje detection zamiast defense/denoising

Elementów w folderze: 0.