URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection
Metadane
- Autorzy: Hung Le, Quang Pham, Doyen Sahoo, Steven C. H. Hoi
- Rok: 2018
- Źródło: arXiv 1802.03162
- DOI: arXiv:1802.03162
- Status: to-read
- Cytowania: ~200+ (szacunek)
- Kategoria: Security / NLP
- Tagi: to-read url phishing malicious-url deep-learning cnn character-level word-level
Streszczenie
URLNet to deep learning model do detekcji malicious URL na poziomie znaku (character-level CNN) i słowa (word-level CNN), łącząc oba sygnały. Adresuje ograniczenia feature engineering: zamiast ręcznie projektować cechy URL (długość domeny, liczba myślników itp.), model uczy się reprezentacji bezpośrednio z sekwencji znaków.
Architektura: character embeddings → CNN → pooling + word embeddings (tokenizacja URL na komponenty) → CNN → concatenation → fully connected → klasyfikacja.
Kluczowe Wnioski
- Character-level CNN: 2-6 gram filtrów na znakach URL
- Word-level CNN: tokenizacja URL na „słowa” (protokół, subdomena, domena, TLD, ścieżka, parametry)
- Lepszy od klasycznych ML (SVM, Random Forest z ręcznymi featurami) na ISCXURL2016
- Odporny na nowe phishing patterns niewidziane w treningu (generalizacja)
- Ograniczenie: URL-only — brak visual/content modalities
Zastosowanie w projektu
M1 URL Analyzer — punkt porównania:
- Nasz M1 używa LightGBM z ręcznie zaprojektowanymi featurami (Duarte 2025)
- URLNet to alternatywa end-to-end deep learning
- EXP-7 (opcjonalne): porównaj LightGBM vs URLNet na PhiUSIIL
Sekcja 2.1: “URL-based approaches range from feature engineering (Duarte et al. 2025) to end-to-end deep learning (Le et al. 2018, URLNet).”
Notatki
Nieobowiązkowy ale wzmacnia sekcję related work dla M1. Pokazuje że URL deep learning istnieje — uzasadniamy wybór LightGBM (interpretable, szybki, Duarte-proven) zamiast URLNet.