Machine Learning for Early Detection of Phishing URLs in Parked Domains: An Approach Applied to a Financial Institution

Metadane

Autorzy: J. D. Duarte, Pedro Chagas Junior, João Paulo Javidi da Costa, Elena J. da Costa, Laerte Peotta de Melo, Rafael Rabelo Nunes et al.
Rok: 2025
Źródło: IEEE Access
DOI: 10.1109/ACCESS.2025.3599454
Status: to-read
Cytowania: 4
Kategoria: Security / Machine Learning
Tagi: to-read banking phishing parked-domains early-detection lightgbm brand-protection ssl-certificates financial-institution

Streszczenie

Jedyna znana praca skupiająca się na ochronie marek bankowych w kontekście phishingu z perspektywy instytucji finansowej. Framework wczesnego wykrywania phishingowych URL w parkowanych domenach (nowo zarejestrowanych i parked domains) — priorytet to wykrywanie ZANIM atak się rozpocznie.

Dataset: 211,659 URLs z real-time monitoring certyfikatów SSL (Certificate Transparency Logs). LightGBM: 97.28% accuracy, 96.02% recall po 10-fold cross-validation. Explicit mention: zastosowanie dla bankowości i e-commerce.

Kluczowe Wnioski

Proactive approach: wykrywanie phishingu w nowo zarejestrowanych domenach (przed atakiem!)
SSL Certificate Transparency Logs jako źródło danych → 211k URLs
LightGBM: 97.28% accuracy, 96.02% recall
Brand protection jako explicite cel (banki i e-commerce)
Feature selection: zachowana skuteczność przy zmniejszonej złożoności

Metodologia

SSL Certificate Transparency monitoring: real-time stream
Feature engineering: URL structure, domain patterns, TLD analysis
LightGBM classifier + 10-fold cross-validation + feature selection
Early detection: parked domains before they go live

Luki / Ograniczenia (gap analysis)

Tylko URL-based features → brak visual/content modalities
Nie testowano adversarial URL perturbations
Bankowe marki analizowane, ale konkretnie które? (nie wiadomo)
Polskie/europejskie banki nie analizowane

Notatki

Najistotniejsza praca z perspektywy banking domain — IEEE Access (wysoka dostępność). Proactive SSL monitoring to unikalne podejście możliwe do integracji z naszym systemem hybrydowym. Pobierz PDF przez DOI 10.1109/ACCESS.2025.3599454.

Rola w projekcie: Proactive URL monitoring jako komponent hybrydowego systemu + banking context + SSL CT logs jako źródło danych.

Research

Przeglądaj

Machine Learning for Early Detection of Phishing URLs in Parked Domains: An Approach Applied to a Financial Institution

Machine Learning for Early Detection of Phishing URLs in Parked Domains: An Approach Applied to a Financial Institution

Metadane

Streszczenie

Kluczowe Wnioski

Metodologia

Luki / Ograniczenia (gap analysis)

Notatki