PhiUSIIL Phishing URL Dataset
Metadane
- Autorzy: Prasad Chandra, Bhargava B.K.
- Rok: 2023
- Źródło: UCI Machine Learning Repository
- Link: https://archive.ics.uci.edu/dataset/967/phiusiil+phishing+url+dataset
- Status: reference
- Kategoria: Security / Dataset
- Tagi: reference dataset phishing-url url-features benchmark #2023
Streszczenie
Publicznie dostępny dataset URL phishingowych z UCI ML Repository: 235,795 phishing + 230,984 legalnych URL (~465k łącznie). Zawiera 54 cechy URL/treści (długość, TLD, entropia, zawartość HTML). Jeden z największych publicznych zbiorów URL phishingowych.
Kluczowe Wnioski
- 235,795 phishing + 230,984 legit = ~465k próbek (zbalansowany)
- 54 cechy: leksykalne URL (długość, znaki specjalne, TLD), DNS (wiek domeny), treść HTML
- Dostęp: bezpośredni download z UCI ML Repository (bez rejestracji)
- Benchmark: wiele prac ML osiąga 97-99% accuracy na tym zbiorze (może być za łatwy)
Metodologia
- Zbieranie: PhishTank (phishing) + Alexa top-sites (legit)
- Feature extraction: skrypty Python (dostępne)
- Labeling: PhishTank verified + manual
Notatki
Rola w projekcie: Główny zbiór treningowy i walidacyjny dla M1 URL Analyzer (LightGBM). Wymieniany w: agent.md, outline.md §6.1, ideas.md, roadmap.md Faza 0. Przed użyciem sprawdzić: czy dataset zawiera financial brand URL patterns (PayPal, Revolut itp.) — jeśli nie, może wymagać uzupełnienia o branded phishing URLs z PhishTank/OpenPhish. Uwaga: 97-99% accuracy w paperach może sugerować że dataset jest zbyt łatwy dla nowoczesnych metod.
Download: wget https://archive.ics.uci.edu/static/public/967/phiusiil+phishing+url+dataset.zip