A Study of Effectiveness of Brand Domain Identification Features for Phishing Detection
Metadane
- Autorzy: Rina Mishra, Gaurav Varshney
- Rok: 2025
- Źródło: arXiv 2503.06487
- DOI: arXiv:2503.06487
- Status: to-read
- Cytowania: N/A
- Kategoria: Security / Feature Engineering
- Tagi: to-read phishing brand-domain feature-engineering random-forest logo-domain bdi
Streszczenie
Systematyczna ewaluacja pięciu Brand Domain Identification (BDI) features przez ostatnią dekadę na zbiorze ~9k stron: logo domain, CN info, form action domain, most common link domain (MCLD), cookie domain. Random Forest z kombinacją trzech cech (logo domain + form action + MCLD) osiąga 99.8% accuracy. Potwierdza logo domain jako najważniejszą cechę dla real-time detekcji phishingu.
Kluczowe Wnioski
- Logo domain (skąd pobierane logo) = top discriminating feature
- Kombinacja 3 cech (logo domain + form action + MCLD): 99.8% RF accuracy
- Dataset: ~9,000 stron (balanced)
- Lightweight: BDI features szybkie do ekstrahowania (no ML vision needed)
Zastosowanie w projekcie
M1 URL Analyzer — dodaj BDI features jako uzupełnienie URL features:
- Logo domain: jeśli logo ładowane z external CDN/domain ≠ main domain → phishing signal
- Form action domain: jeśli formularz wysyła dane na inną domenę niż main → red flag
- Te cechy komplementarne do homoglyph/TLD features
Sekcja 2 (optional reference): “BDI-based approaches (Mishra & Varshney, 2025) extract cross-domain signals from logo and form references, achieving 99.8% accuracy on balanced datasets — though without adversarial evaluation.”
Notatki
Użyteczna dla M1 feature engineering — szczególnie logo domain i form action domain features. Niedługi paper, przeczytaj pobieżnie.