TR-OP Phishing Dataset

Informacje podstawowe

Nazwa: TR-OP Dataset (Tranco-OpenPhish Dataset)
Alias: TR-OP, Tranco-OpenPhish
Dziedzina: Cybersecurity, Phishing Detection
Typ: Web data (URLs, HTML, screenshots)

Źródło

URL: https://github.com/code-philia/KnowPhish (referenced in KnowPhish paper)
Paper: KnowPhish: Large Language Models Meet Multimodal Knowledge Graphs for Enhancing Reference-Based Phishing Detection (USENIX Security 2024)
Autorzy: Y. Li, C. Huang, S. Deng, M. L. Lock, T. Cao, N. Oo, H. W. Lim, B. Hooi
Organizacja: USENIX Security ‘24
Rok: 2023 (data collection: July-December 2023)

Charakterystyka

Rozmiar: Varies (publikacja użyła sampel 1000 stron: 500 phishing + 500 legitimate)
Podział: Balanced, manually labeled samples
Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
Format: URLs, HTML, visual screenshots
Licencja: Research use (check repository for details)

Opis

TR-OP Dataset to manually labeled i balanced dataset do phishing detection. Charakteryzuje się:

Benign samples:

Pochodzą z Tranco top 50k domains
Reprezentują najbardziej popularne i zaufane strony

Phishing samples:

Crawled i validated w okresie 6 miesięcy (July-December 2023)
Obejmują 440 unique phishing targets
Źródło: OpenPhish
Manually verified dla quality assurance

Dataset jest szczególnie wartościowy ze względu na:

Temporal freshness (recent phishing campaigns)
Manual labeling (wysokiej jakości ground truth)
Balanced distribution (eliminuje class imbalance)
Real-world phishing targets (diverse brand impersonation)

Zastosowania

Reference-based phishing detection
Multimodal phishing analysis (text + visual)
Brand impersonation detection
Benchmarking detection systems na recent phishing tactics
Research w LLM-based security applications
Temporal analysis phishing evolution

Używany w publikacjach

phishdebate-2025 - Scenario analysis dla robustness testing multi-agent debate framework

Benchmarki

Model/System	Metric	Score	Rok	Publikacja
KnowPhish	-	-	2024	KnowPhish (USENIX Security ‘24)
PhishDebate (avg)	Accuracy	~94%	2025	PhishDebate (averaged with Mendeley)

Uwagi

Zalety:

Manual labeling zapewnia high-quality ground truth
Recent data (2023) - aktualne phishing tactics
Balanced dataset - eliminuje training bias
440 unique targets - dobra różnorodność brand impersonation

Ważne:

Dataset może wymagać periodic updates (phishing URLs mogą expire)
Temporal window (July-Dec 2023) - awareness of time-specific tactics
Benign samples z Tranco top 50k - ensure reprezentatywność popular websites
Dostępność przez GitHub repository (sprawdzić access conditions)

Recommended use:

Idealny do testing modern phishing detection systems
Szczególnie wartościowy dla reference-based i visual phishing detection
Dobrze pasuje do LLM-based approaches ze względu na multimodal nature

Tagi

dataset phishing-detection cybersecurity multimodal reference-based brand-impersonation manual-labeling tranco openphish