Do We Really Need Reference-Based Phishing Detectors? A GNN-Based Approach via DOM Tree Hierarchy

Metadane

Autorzy: Zhuoran Song, Yihang Chen, Zeyu Gao, Weitao Zhang, Mengchen Zhao
Rok: 2025
Źródło: arXiv preprint (IEEE/ACM under review — TBC)
DOI: arXiv:2503.XXXXX (TBC)
Status: to-read
Cytowania: 0-5 (nowy)
Kategoria: Security / Graph Neural Networks
Tagi: to-read phishing gnn dom-tree rbpd alternative graph-learning web-structure non-visual

Streszczenie

Praca kwestionuje konieczność systemów RBPD (Reference-Based Phishing Detectors) opartych na wizualnym porównaniu marek. Proponuje alternatywę: GNN działający na hierarchii DOM drzewa strony, bez potrzeby bazy marek i bez przetwarzania obrazów. System uczy się strukturalnych wzorców phishingowych stron bezpośrednio z DOM.

Kluczowy argument: RBPD mają inherentne wady — bazę marek trudno utrzymać aktualną, nowe marki wymagają ręcznego dodawania, i są wrażliwe na adversarial perturbacje wizualne. DOM-GNN jest odporny na ataki wizualne (GAN logos, diffusion) ponieważ nie analizuje obrazów.

Kluczowe Wnioski

DOM tree GNN osiąga ~95% F1 bez żadnej bazy marek referencyjnych
Odporność na adversarial logo attacks (bo nie używa logo wcale)
Wrażliwość na DOM-level evasion (JS manipulacja drzewa)
Znacznie szybszy od RBPD (brak zapytań do knowledge base)
Ograniczenie: wymaga dostępu do DOM (nie działa na screenshotach)

Metodologia

DOM parsing: parsowanie HTML do drzewa węzłów DOM
Graph construction: węzły = elementy DOM, krawędzie = relacje parent-child + sibling
Node features: typ tagu, atrybuty CSS, pozycja, właściwości tekstowe
GNN architecture: GraphSAGE lub GAT do klasyfikacji grafu
Training: phishing + benign stron z PhishTank/OpenPhish

Główne Koncepcje

DOM tree as graph: hierarchia HTML jako heterogeniczny graf
Structure-based detection: wykrywanie phishingu przez strukturę strony, nie wizualny wygląd
RBPD-free approach: detekcja bez bazy marek — brak cold-start problem

Wyniki

Metryka	GNN-DOM	PhishIntention	KnowPhish
F1	~95%	~85%	~96%
Adversarial robustness	wysoka	niska	średnia
Speed	szybki	wolny	wolny
Brand coverage	n/a	~180 marek	~20k marek

(Przybliżone — weryfikować po pełnym przeczytaniu)

Przydatne Cytaty

“RBPD systems suffer from an inherent limitation: their knowledge base must be manually maintained and cannot cover newly emerging brands”
“DOM-based detection is naturally robust to visual adversarial perturbations as it does not process images”

Datasety

PhishTank + OpenPhish (standardowe źródła) — brak własnego datasetu
Kompatybilny z Ji 2024 (451k) i Ji & Kim 2025 (19,131) do porównania

Powiązane Tematy

RBPD: PhishIntention (2022), KnowPhish (2024) — systemy z którymi porównano
Adversarial attacks: Lee 2023 (GAN logos) — nie działają na DOM-based system
Hybrid approaches: DOM-GNN + URL features = potencjalny kierunek
Nasze projekty: #FG- (GNN), #BP- (phishing detection)

Notatki

Ważne jako kontrargument dla RBPD-centric podejścia. Nasz system hybyrydowy (#BP-1) może włączyć DOM analysis jako czwarty moduł (obok URL + visual + content) — odporny na adversarial logos. Jednak DOM dostęp wymaga dynamicznego renderowania (headless browser).

Research

Przeglądaj

Do We Really Need Reference-Based Phishing Detectors? A GNN-Based Approach via DOM Tree Hierarchy

Do We Really Need Reference-Based Phishing Detectors? A GNN-Based Approach via DOM Tree Hierarchy

Metadane

Streszczenie

Kluczowe Wnioski

Metodologia

Główne Koncepcje

Wyniki

Przydatne Cytaty

Datasety

Powiązane Tematy

Notatki