SAHF-PD: Semantic-Aware Hierarchical Fusion for Phishing Detection
Metadane
- Autorzy: Xinyang Yuan et al.
- Rok: 2026
- Źródło: Electronics 15(2):368, DOI: 10.3390/electronics15020368
- Status: reference
- Kategoria: Security / Multimodal / Deep Learning
- Tagi: reference multimodal hierarchical-fusion phishing llm screenshot url html #2026
Streszczenie
Framework SAHF-PD integruje cechy z 4 modalności (email body, URL, screenshot, HTML) za pomocą LLM feature extraction i hierarchicznej fuzji semantycznej. Dataset PhishMMF: 11,672 próbek z pełnymi cechami multimodalnymi. Architektura blisko analogiczna do M1+M2+M3 w FinPhishGuard.
Kluczowe Wnioski
- 4 modalności: URL + HTML + screenshot + treść emaila → hierarchiczna fuzja
- LLM jako ekstraktor cech (nie klasyfikator end-to-end) → lepsze embeddingi niż BoW/TF-IDF
- Dataset PhishMMF: 11,672 próbek z pełnym zestawem cech multimodalnych — publicznie dostępny?
- Semantyczna fuzja > naiwna konkatenacja cech (ablation study potwierdza)
- Wyniki (szczegółowe nie dostępne w abstrakcie) — weryfikować po pełnym PDF
Metodologia
- Feature extraction: LLM (dla tekstu), CNN/ViT (dla screenshotów)
- Fuzja: hierarchiczna (najpierw fuzja wewnątrz modalności, potem między modalnościami)
- Semantic-aware: ważenie modalności zgodnie z ich informacyjnością dla danego przykładu
- Dataset: PhishMMF (własny, 11,672 próbek)
Notatki
Rola w projekcie: Architektura SAHF-PD potwierdza kierunek FinPhishGuard: multimodalna fuzja (M1 URL + M2 Visual + M3 Content) z LLM feature extraction. Dataset PhishMMF może być przydatny jako dodatkowy zbiór treningowy. Hierarchiczna fuzja = potencjalne ulepszenie nad prostą konkatenacją w M6 ensemble.