Hybrydowa detekcja impersonacji marek finansowych w phishingu

Opis projektu

Badania nad systemem wykrywającym podszywanie się pod marki instytucji finansowych w atakach phishingowych. Skupia się na hybrydowym podejściu (URL + visual + content) odpornym na klasy ataków adwersaryjnych.

Zakres marek (nie tylko banki — cały sektor financial services):

Banki: PKO BP, mBank, ING, Santander, BNP Paribas, Pekao, Millennium, Alior, Credit Agricole
Bramki płatności: PayPal, Stripe, Revolut, BLIK, Square, Wise (TransferWise)
Sieci płatnicze: Mastercard, Visa, American Express
Portfele mobilne: Google Pay, Apple Pay, Samsung Pay
Fintech: Klarna, N26, Monzo, Starling

Strategia: Szybka ścieżka do publikacji

Cel: pierwsza publikacja w 4-6 miesięcy, obrona doktoratu.

Fast path (priorytetowe)

Nie tworzymy własnych datasetów — walidacja na istniejących, publicznych zbiorach
Budujemy na SOTA (KnowPhish, PhishIntention) — rozszerzamy zamiast budować od zera
Wąski, konkretny wkład — jedno z: adversarial robustness LUB financial brand coverage LUB timing defense
Target venues: ACSAC (deadline ~June), RAID (~May), USENIX Security (~Feb/Oct), ACM CCS (~Jan/May)

Problem badawczy

Istniejące systemy wizualnej detekcji phishingu (VisualPhishNet, DynaPhish, KnowPhish) osiągają 87-92% F1 w warunkach laboratoryjnych (KnowPhish: F1=92.05%, Phishpedia lab: Recall=87.1%), ale:

Zawodzą na real-world data (Ji et al. 2024: 451k websites — recall spada do ~40-50%)
Są podatne na adversarial logos (evasion rate 95%, Lee 2023)
Są podatne na delayed rendering (detection 100%→0%, Yuan 2026)
Mają ograniczoną bazę marek (KnowPhish: 20k — ale financial services underrepresented)
Logo detection on-device: tylko 46.6% (Petrukha 2024)

Hipoteza badawcza

System hybrydowy łączący:

URL module: SSL CT monitoring + URL pattern analysis (Duarte 2025)
Visual module: adversarially hardened logo detection (VisualPhishNet + adversarial training)
Content module: LLM-based brand extraction z HTML (KnowPhish 2024)

…osiągnie >90% recall przy adversarial logos i timing attacks, gdzie istniejące systemy mają <30% recall — testowane na istniejących publicznych datasetach.

Dostępne datasety do walidacji (bez tworzenia własnych)

Dataset	Rozmiar	Zawartość	Dostęp	Publikacja
Phishpedia Labelled Logo	30,649 stron z bounding box logo	Główny training set M2a — 6× większy niż LogoSENSE	sites.google.com/view/phishpedia-site	Lin et al. 2021
Phishpedia Phishing	29,496 phishing stron	Screenshoty phishing; uzupełnienie Ji & Kim	sites.google.com/view/phishpedia-site	Lin et al. 2021
Phishpedia Target List	181 marek z logo	Seed dla Financial Brand KB (rozszerzyć do 150+)	sites.google.com/view/phishpedia-site	Lin et al. 2021
Ji & Kim 2025	19,131 phishing + 243 benign	Główny benchmark end-to-end — realistyczny imbalance	Publiczny (arxiv/GitHub)	Ji & Kim 2025
Ji et al. 2024	451,000 phishing sites	Largest real-world eval	Kontakt z autorami (KAIST)	Ji et al. 2024
LogoSENSE	3,060 train + 1,979 test	Logo bounding box — jako test set (Phishpedia jako train)	GitHub (Bozkir 2020)	Bozkir & Aydos 2020
PhiUSIIL	~235k phishing + 230k legit	URL + content features; M1 training	UCI ML Repository	Prasad & Bhargava 2023
PhishTank	~1.5M URLs (live feed)	URLs + labels	phishtank.com (API)	Open
OpenPhish	live feed	Verified phishing URLs	openphish.com	Open

Priorytet: Ji & Kim 2025 (publiczny, 19k+ stron, realistyczny) + LogoSENSE (logo bounding boxes) + PhiUSIIL (duży, URL+content).

Kluczowe publikacje

Technologie fundamentalne (Rozdział 2.4 pracy)

Logo Detection & Localization

carion-detr-2020 — DETR (ECCV 2020, ~15k cyt.) — object detection bez anchors
zhu-deformable-detr-2021 — Deformable DETR (ICLR 2021, 7,374 cyt.) — rekomendowany dla M2a: 10× szybsza konwergencja, multi-scale, lepszy dla małych logo
dosovitskiy-vit-2021 — ViT (ICLR 2021, ~62k cyt.) — Transformer backbone; globalny attention odporniejszy na adversarial perturbacje

Brand Matching & Metric Learning

radford-clip-2021 — CLIP (ICML 2021, ~30k cyt.) — kluczowa innowacja M2: zero-shot brand matching bez retrainingu dla nowych marek fintech
schroff-facenet-triplet-2015 — FaceNet/triplet loss (CVPR 2015, ~25k cyt.) — fundament VisualPhishNet; baseline zastępowany przez CLIP

Adversarial Robustness

goodfellow-fgsm-2015 — FGSM (ICLR 2015, ~25k cyt.) — foundational adversarial attack; punkt wyjścia dla PGD
madry-pgd-adversarial-training-2018 — PGD adversarial training (ICLR 2018, ~20k cyt.) — gold-standard obrona; zastosowanie: fine-tuning adversarial verifier w M2c
cohen-randomized-smoothing-2019 — Randomized Smoothing (ICML 2019, ~3.5k cyt.) — certyfikowana robustność L₂

Backbone & Explainability

he-resnet-2016 — ResNet (CVPR 2016, ~200k cyt.) — baseline backbone (PhishIntention używa ResNet-50)
selvaraju-gradcam-2017 — Grad-CAM (ICCV 2017, ~25k cyt.) — heatmapy decyzji logo detectora; sekcja explainability

NLP & URL

liu-roberta-2019 — RoBERTa (2019, 29,503 cyt.) — backbone M3 NER (brand name extraction z HTML)
le-urlnet-2018 — URLNet (2018) — deep learning URL analysis; punkt porównania dla M1 LightGBM
suzuki-shamfinder-idn-2019 — ShamFinder (IMC 2019) — IDN homograph detection; metodologia dla M1 homoglyph feature

RBPD — state-of-art (od czego zaczynamy)

abdelnabi-visualphishnet-2020 — VisualPhishNet (ACM CCS 2020)
lin-phishpedia-usenix-2021 — Phishpedia (USENIX Sec 2021, 164 cyt.) — BASELINE #2 (używany w Ji & Kim 2025)
liu-phishintention-usenix-2022 — PhishIntention (USENIX Sec 2022, 92 cyt.) — GŁÓWNY BASELINE #1
liu-dynaphish-knowledge-expansion-2023 — DynaPhish (USENIX Sec 2023)
li-knowphish-multimodal-2024 — KnowPhish (2024, 70 cyt.) — SOTA
bozkir-logosense-2020 — LogoSENSE (71 cyt., publiczny dataset z bounding box)

Adversarial Attacks — zagrożenia

lee-adversarial-logos-phishing-2023 — GAN logos (95% evasion)
hao-diffusion-subvert-phishing-2024 — LogoMorph diffusion
yuan-delayed-rendering-evasion-2026 — Timing attack (100%→0%)
yuan-multispacePhish-evasion-2023 — Multi-SpacePhish
yuan-adversarial-phishing-users-2024 — User study

Nowy SOTA i adversarial attacks (2024-2025) — krytyczne do przeczytania

lee-mllm-phishing-2024 — MLLM bez reference list (arXiv 2408.05941, 2024) — aktualny SOTA; eliminuje maintenance KB; Baseline #3 w EXP-5
kulkarni-phishoracle-2024 — PhishOracle adversarial generator (arXiv 2407.20361, 2024) — pokazuje że VisualPhishNet/Phishpedia padają; dostarcza Attack Class A5
kulkarni-phishing-survey-2025 — Survey 2025 (arXiv 2509.08424) — taksonomia dla Related Work Section 2
hriday-phishblitz-2025 — Phish-Blitz dataset tool + 13.8k stron (wrzesień 2025)
kulkarni-phishoracle-adversarial-llm-2024 — BDI features study (arXiv 2503.06487) — logo domain jako top feature dla M1

Ewaluacja i alternatywy

ji-robustness-visual-phishing-2024 — Real-world eval 451k, Ji 2024
ji-llm-phishing-detection-2025 — LLM eval + 19,131 dataset (Ji & Kim 2025, arXiv:2511.09606)
song-gnn-phishing-rbpd-2025 — DOM-GNN alternative to RBPD
petrukha-ondevice-phishing-macos-2024 — On-device 46.6% logo

Banking/Deployment

duarte-parked-domains-banking-2025 — SSL CT monitoring, IEEE Access

LLM / Embeddings integracja (nowe kierunki — dostępne modele lokalne)

phishdebate-2025 — PhishDebate multi-agent (arXiv:2506.15656) — 98.2% recall; 4 agentów URL/HTML/semantic/brand; analogia do M1-M4
phishsense-1b-2025 — Phishsense-1B LoRA fine-tune (arXiv:2503.10944) — 97.5% lab → 70% real-world; ostrzeżenie przed overfittingiem
malqwen-qwen-security-2025 — MalQwen Qwen-7B+LoRA security (IEEE Access 2025) — BERTscore 0.84; proof Qwen działa na security tasks
ma-trademark-contrastive-2025 — Trademark contrastive embeddings (IEEE Access 2025) — precedens dla embedding-based M2 brand matching
sahf-pd-multimodal-phishing-2026 — SAHF-PD 4-modalności hierarchical fusion (Electronics 2026) — architektura analogiczna do M1+M2+M3

Inne phishing

al-subaiey-web-ai-phishing-2024 — ML baseline
phishchain-2022 — Blockchain crowdsourcing

Datasety w bazie

phishtank-2020 — PhishTank (benchmark)
mendeley-phishing-websites — URL + content features

Luki w literaturze (gap map)

Gap	Status w literaturze	Nasz wkład	Fast?
Adversarial robustness RBPD	Lee 2023 (attack), brak obrony	Adversarial training na RBPD	✅
Financial brand breadth	KnowPhish: 20k (ale fintech underrepresented)	Financial services brand extension	✅
Delayed rendering defense	Yuan 2026 (PoC extension only)	DOM/CSS analysis + multi-timestamp	✅
Real-world RBPD performance	Ji 2024 (failure report)	System odporny na real-world degradation	✅
LLM vs RBPD hybrid	Ji & Kim 2025 (LLM only)	Hybrid LLM+RBPD ensemble	✅

Tagi wyszukiwania

#phishing-detection #brand-impersonation #adversarial-robustness #visual-similarity #financial-services #logo-detection #hybrid-detection #payment-gateways

Kierunki badań (→ ideas.md)

[#BP-1] Adversarially robust hybrid: URL + visual + content (walidacja na Ji 2024 + LogoSENSE)
[#BP-2] Financial Brand Phishing Benchmark: ewaluacja na Ji & Kim 2025 + PhiUSIIL
[#BP-3] Defense against delayed rendering — DOM/CSS multi-signal
[#BP-4] Trademark registry integration (EUIPO + URPiE)
[#BP-5] SSL CT monitoring dla PL financial services
[#BP-6] User study: overconfidence in financial brand detection (PL replication)

Venue docelowe

Fast path: ACSAC, RAID, ESORICS
Target: USENIX Security, ACM CCS, IEEE S&P
Czasopisma: IEEE TIFS, Computers & Security

Research

Przeglądaj

Hybrydowa detekcja impersonacji marek finansowych w phishingu

Hybrydowa detekcja impersonacji marek finansowych w phishingu

Opis projektu

Strategia: Szybka ścieżka do publikacji

Fast path (priorytetowe)

Problem badawczy

Hipoteza badawcza

Dostępne datasety do walidacji (bez tworzenia własnych)

Kluczowe publikacje

Technologie fundamentalne (Rozdział 2.4 pracy)

RBPD — state-of-art (od czego zaczynamy)

Adversarial Attacks — zagrożenia

Nowy SOTA i adversarial attacks (2024-2025) — krytyczne do przeczytania

Ewaluacja i alternatywy

Banking/Deployment

LLM / Embeddings integracja (nowe kierunki — dostępne modele lokalne)

Inne phishing

Datasety w bazie

Luki w literaturze (gap map)

Tagi wyszukiwania

Kierunki badań (→ ideas.md)

Venue docelowe

Architektura i Eksperymenty

roadmap

promotor-brief

outline

Notatki robocze

kw_badawczo

Pomysły badawcze

hypotheses

glossary

dataset-requests

data-readiness

Bibliografia