Machine Learning for Early Detection of Phishing URLs in Parked Domains: An Approach Applied to a Financial Institution

Metadane

Streszczenie

Jedyna znana praca skupiająca się na ochronie marek bankowych w kontekście phishingu z perspektywy instytucji finansowej. Framework wczesnego wykrywania phishingowych URL w parkowanych domenach (nowo zarejestrowanych i parked domains) — priorytet to wykrywanie ZANIM atak się rozpocznie.

Dataset: 211,659 URLs z real-time monitoring certyfikatów SSL (Certificate Transparency Logs). LightGBM: 97.28% accuracy, 96.02% recall po 10-fold cross-validation. Explicit mention: zastosowanie dla bankowości i e-commerce.

Kluczowe Wnioski

  • Proactive approach: wykrywanie phishingu w nowo zarejestrowanych domenach (przed atakiem!)
  • SSL Certificate Transparency Logs jako źródło danych → 211k URLs
  • LightGBM: 97.28% accuracy, 96.02% recall
  • Brand protection jako explicite cel (banki i e-commerce)
  • Feature selection: zachowana skuteczność przy zmniejszonej złożoności

Metodologia

  • SSL Certificate Transparency monitoring: real-time stream
  • Feature engineering: URL structure, domain patterns, TLD analysis
  • LightGBM classifier + 10-fold cross-validation + feature selection
  • Early detection: parked domains before they go live

Luki / Ograniczenia (gap analysis)

  • Tylko URL-based features → brak visual/content modalities
  • Nie testowano adversarial URL perturbations
  • Bankowe marki analizowane, ale konkretnie które? (nie wiadomo)
  • Polskie/europejskie banki nie analizowane

Notatki

Najistotniejsza praca z perspektywy banking domain — IEEE Access (wysoka dostępność). Proactive SSL monitoring to unikalne podejście możliwe do integracji z naszym systemem hybrydowym. Pobierz PDF przez DOI 10.1109/ACCESS.2025.3599454.

Rola w projekcie: Proactive URL monitoring jako komponent hybrydowego systemu + banking context + SSL CT logs jako źródło danych.

Elementów w folderze: 0.