Do We Really Need Reference-Based Phishing Detectors? A GNN-Based Approach via DOM Tree Hierarchy

Metadane

Streszczenie

Praca kwestionuje konieczność systemów RBPD (Reference-Based Phishing Detectors) opartych na wizualnym porównaniu marek. Proponuje alternatywę: GNN działający na hierarchii DOM drzewa strony, bez potrzeby bazy marek i bez przetwarzania obrazów. System uczy się strukturalnych wzorców phishingowych stron bezpośrednio z DOM.

Kluczowy argument: RBPD mają inherentne wady — bazę marek trudno utrzymać aktualną, nowe marki wymagają ręcznego dodawania, i są wrażliwe na adversarial perturbacje wizualne. DOM-GNN jest odporny na ataki wizualne (GAN logos, diffusion) ponieważ nie analizuje obrazów.

Kluczowe Wnioski

  • DOM tree GNN osiąga ~95% F1 bez żadnej bazy marek referencyjnych
  • Odporność na adversarial logo attacks (bo nie używa logo wcale)
  • Wrażliwość na DOM-level evasion (JS manipulacja drzewa)
  • Znacznie szybszy od RBPD (brak zapytań do knowledge base)
  • Ograniczenie: wymaga dostępu do DOM (nie działa na screenshotach)

Metodologia

  • DOM parsing: parsowanie HTML do drzewa węzłów DOM
  • Graph construction: węzły = elementy DOM, krawędzie = relacje parent-child + sibling
  • Node features: typ tagu, atrybuty CSS, pozycja, właściwości tekstowe
  • GNN architecture: GraphSAGE lub GAT do klasyfikacji grafu
  • Training: phishing + benign stron z PhishTank/OpenPhish

Główne Koncepcje

  • DOM tree as graph: hierarchia HTML jako heterogeniczny graf
  • Structure-based detection: wykrywanie phishingu przez strukturę strony, nie wizualny wygląd
  • RBPD-free approach: detekcja bez bazy marek — brak cold-start problem

Wyniki

MetrykaGNN-DOMPhishIntentionKnowPhish
F1~95%~85%~96%
Adversarial robustnesswysokaniskaśrednia
Speedszybkiwolnywolny
Brand coveragen/a~180 marek~20k marek

(Przybliżone — weryfikować po pełnym przeczytaniu)

Przydatne Cytaty

  • “RBPD systems suffer from an inherent limitation: their knowledge base must be manually maintained and cannot cover newly emerging brands”
  • “DOM-based detection is naturally robust to visual adversarial perturbations as it does not process images”

Datasety

  • PhishTank + OpenPhish (standardowe źródła) — brak własnego datasetu
  • Kompatybilny z Ji 2024 (451k) i Ji & Kim 2025 (19,131) do porównania

Powiązane Tematy

  • RBPD: PhishIntention (2022), KnowPhish (2024) — systemy z którymi porównano
  • Adversarial attacks: Lee 2023 (GAN logos) — nie działają na DOM-based system
  • Hybrid approaches: DOM-GNN + URL features = potencjalny kierunek
  • Nasze projekty: #FG- (GNN), #BP- (phishing detection)

Notatki

Ważne jako kontrargument dla RBPD-centric podejścia. Nasz system hybyrydowy (#BP-1) może włączyć DOM analysis jako czwarty moduł (obok URL + visual + content) — odporny na adversarial logos. Jednak DOM dostęp wymaga dynamicznego renderowania (headless browser).

Elementów w folderze: 0.