URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection

Metadane

Streszczenie

URLNet to deep learning model do detekcji malicious URL na poziomie znaku (character-level CNN) i słowa (word-level CNN), łącząc oba sygnały. Adresuje ograniczenia feature engineering: zamiast ręcznie projektować cechy URL (długość domeny, liczba myślników itp.), model uczy się reprezentacji bezpośrednio z sekwencji znaków.

Architektura: character embeddings → CNN → pooling + word embeddings (tokenizacja URL na komponenty) → CNN → concatenation → fully connected → klasyfikacja.

Kluczowe Wnioski

  • Character-level CNN: 2-6 gram filtrów na znakach URL
  • Word-level CNN: tokenizacja URL na „słowa” (protokół, subdomena, domena, TLD, ścieżka, parametry)
  • Lepszy od klasycznych ML (SVM, Random Forest z ręcznymi featurami) na ISCXURL2016
  • Odporny na nowe phishing patterns niewidziane w treningu (generalizacja)
  • Ograniczenie: URL-only — brak visual/content modalities

Zastosowanie w projektu

M1 URL Analyzer — punkt porównania:

  • Nasz M1 używa LightGBM z ręcznie zaprojektowanymi featurami (Duarte 2025)
  • URLNet to alternatywa end-to-end deep learning
  • EXP-7 (opcjonalne): porównaj LightGBM vs URLNet na PhiUSIIL

Sekcja 2.1: “URL-based approaches range from feature engineering (Duarte et al. 2025) to end-to-end deep learning (Le et al. 2018, URLNet).”

Notatki

Nieobowiązkowy ale wzmacnia sekcję related work dla M1. Pokazuje że URL deep learning istnieje — uzasadniamy wybór LightGBM (interpretable, szybki, Duarte-proven) zamiast URLNet.

Elementów w folderze: 0.