A Study of Effectiveness of Brand Domain Identification Features for Phishing Detection

Metadane

Streszczenie

Systematyczna ewaluacja pięciu Brand Domain Identification (BDI) features przez ostatnią dekadę na zbiorze ~9k stron: logo domain, CN info, form action domain, most common link domain (MCLD), cookie domain. Random Forest z kombinacją trzech cech (logo domain + form action + MCLD) osiąga 99.8% accuracy. Potwierdza logo domain jako najważniejszą cechę dla real-time detekcji phishingu.

Kluczowe Wnioski

  • Logo domain (skąd pobierane logo) = top discriminating feature
  • Kombinacja 3 cech (logo domain + form action + MCLD): 99.8% RF accuracy
  • Dataset: ~9,000 stron (balanced)
  • Lightweight: BDI features szybkie do ekstrahowania (no ML vision needed)

Zastosowanie w projekcie

M1 URL Analyzer — dodaj BDI features jako uzupełnienie URL features:

  • Logo domain: jeśli logo ładowane z external CDN/domain ≠ main domain → phishing signal
  • Form action domain: jeśli formularz wysyła dane na inną domenę niż main → red flag
  • Te cechy komplementarne do homoglyph/TLD features

Sekcja 2 (optional reference): “BDI-based approaches (Mishra & Varshney, 2025) extract cross-domain signals from logo and form references, achieving 99.8% accuracy on balanced datasets — though without adversarial evaluation.”

Notatki

Użyteczna dla M1 feature engineering — szczególnie logo domain i form action domain features. Niedługi paper, przeczytaj pobieżnie.

Elementów w folderze: 0.