A Study of Effectiveness of Brand Domain Identification Features for Phishing Detection

Metadane

Autorzy: Rina Mishra, Gaurav Varshney
Rok: 2025
Źródło: arXiv 2503.06487
DOI: arXiv:2503.06487
Status: to-read
Cytowania: N/A
Kategoria: Security / Feature Engineering
Tagi: to-read phishing brand-domain feature-engineering random-forest logo-domain bdi

Streszczenie

Systematyczna ewaluacja pięciu Brand Domain Identification (BDI) features przez ostatnią dekadę na zbiorze ~9k stron: logo domain, CN info, form action domain, most common link domain (MCLD), cookie domain. Random Forest z kombinacją trzech cech (logo domain + form action + MCLD) osiąga 99.8% accuracy. Potwierdza logo domain jako najważniejszą cechę dla real-time detekcji phishingu.

Kluczowe Wnioski

Logo domain (skąd pobierane logo) = top discriminating feature
Kombinacja 3 cech (logo domain + form action + MCLD): 99.8% RF accuracy
Dataset: ~9,000 stron (balanced)
Lightweight: BDI features szybkie do ekstrahowania (no ML vision needed)

Zastosowanie w projekcie

M1 URL Analyzer — dodaj BDI features jako uzupełnienie URL features:

Logo domain: jeśli logo ładowane z external CDN/domain ≠ main domain → phishing signal
Form action domain: jeśli formularz wysyła dane na inną domenę niż main → red flag
Te cechy komplementarne do homoglyph/TLD features

Sekcja 2 (optional reference): “BDI-based approaches (Mishra & Varshney, 2025) extract cross-domain signals from logo and form references, achieving 99.8% accuracy on balanced datasets — though without adversarial evaluation.”

Notatki

Użyteczna dla M1 feature engineering — szczególnie logo domain i form action domain features. Niedługi paper, przeczytaj pobieżnie.

Research

Przeglądaj

A Study of Effectiveness of Brand Domain Identification Features for Phishing Detection

A Study of Effectiveness of Brand Domain Identification Features for Phishing Detection

Metadane

Streszczenie

Kluczowe Wnioski

Zastosowanie w projekcie

Notatki