URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection

Metadane

Autorzy: Hung Le, Quang Pham, Doyen Sahoo, Steven C. H. Hoi
Rok: 2018
Źródło: arXiv 1802.03162
DOI: arXiv:1802.03162
Status: to-read
Cytowania: ~200+ (szacunek)
Kategoria: Security / NLP
Tagi: to-read url phishing malicious-url deep-learning cnn character-level word-level

Streszczenie

URLNet to deep learning model do detekcji malicious URL na poziomie znaku (character-level CNN) i słowa (word-level CNN), łącząc oba sygnały. Adresuje ograniczenia feature engineering: zamiast ręcznie projektować cechy URL (długość domeny, liczba myślników itp.), model uczy się reprezentacji bezpośrednio z sekwencji znaków.

Architektura: character embeddings → CNN → pooling + word embeddings (tokenizacja URL na komponenty) → CNN → concatenation → fully connected → klasyfikacja.

Kluczowe Wnioski

Character-level CNN: 2-6 gram filtrów na znakach URL
Word-level CNN: tokenizacja URL na „słowa” (protokół, subdomena, domena, TLD, ścieżka, parametry)
Lepszy od klasycznych ML (SVM, Random Forest z ręcznymi featurami) na ISCXURL2016
Odporny na nowe phishing patterns niewidziane w treningu (generalizacja)
Ograniczenie: URL-only — brak visual/content modalities

Zastosowanie w projektu

M1 URL Analyzer — punkt porównania:

Nasz M1 używa LightGBM z ręcznie zaprojektowanymi featurami (Duarte 2025)
URLNet to alternatywa end-to-end deep learning
EXP-7 (opcjonalne): porównaj LightGBM vs URLNet na PhiUSIIL

Sekcja 2.1: “URL-based approaches range from feature engineering (Duarte et al. 2025) to end-to-end deep learning (Le et al. 2018, URLNet).”

Notatki

Nieobowiązkowy ale wzmacnia sekcję related work dla M1. Pokazuje że URL deep learning istnieje — uzasadniamy wybór LightGBM (interpretable, szybki, Duarte-proven) zamiast URLNet.

Research

Przeglądaj

URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection

URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection

Metadane

Streszczenie

Kluczowe Wnioski

Zastosowanie w projektu

Notatki