PhiUSIIL Phishing URL Dataset

Metadane

Autorzy: Prasad Chandra, Bhargava B.K.
Rok: 2023
Źródło: UCI Machine Learning Repository
Link: https://archive.ics.uci.edu/dataset/967/phiusiil+phishing+url+dataset
Status: reference
Kategoria: Security / Dataset
Tagi: reference dataset phishing-url url-features benchmark #2023

Streszczenie

Publicznie dostępny dataset URL phishingowych z UCI ML Repository: 235,795 phishing + 230,984 legalnych URL (~465k łącznie). Zawiera 54 cechy URL/treści (długość, TLD, entropia, zawartość HTML). Jeden z największych publicznych zbiorów URL phishingowych.

Kluczowe Wnioski

235,795 phishing + 230,984 legit = ~465k próbek (zbalansowany)
54 cechy: leksykalne URL (długość, znaki specjalne, TLD), DNS (wiek domeny), treść HTML
Dostęp: bezpośredni download z UCI ML Repository (bez rejestracji)
Benchmark: wiele prac ML osiąga 97-99% accuracy na tym zbiorze (może być za łatwy)

Metodologia

Zbieranie: PhishTank (phishing) + Alexa top-sites (legit)
Feature extraction: skrypty Python (dostępne)
Labeling: PhishTank verified + manual

Notatki

Rola w projekcie: Główny zbiór treningowy i walidacyjny dla M1 URL Analyzer (LightGBM). Wymieniany w: agent.md, outline.md §6.1, ideas.md, roadmap.md Faza 0. Przed użyciem sprawdzić: czy dataset zawiera financial brand URL patterns (PayPal, Revolut itp.) — jeśli nie, może wymagać uzupełnienia o branded phishing URLs z PhishTank/OpenPhish. Uwaga: 97-99% accuracy w paperach może sugerować że dataset jest zbyt łatwy dla nowoczesnych metod.

Download: wget https://archive.ics.uci.edu/static/public/967/phiusiil+phishing+url+dataset.zip

Research

Przeglądaj

PhiUSIIL Phishing URL Dataset

PhiUSIIL Phishing URL Dataset

Metadane

Streszczenie

Kluczowe Wnioski

Metodologia

Notatki