TR-OP Phishing Dataset
Informacje podstawowe
- Nazwa: TR-OP Dataset (Tranco-OpenPhish Dataset)
- Alias: TR-OP, Tranco-OpenPhish
- Dziedzina: Cybersecurity, Phishing Detection
- Typ: Web data (URLs, HTML, screenshots)
Źródło
- URL: https://github.com/code-philia/KnowPhish (referenced in KnowPhish paper)
- Paper: KnowPhish: Large Language Models Meet Multimodal Knowledge Graphs for Enhancing Reference-Based Phishing Detection (USENIX Security 2024)
- Autorzy: Y. Li, C. Huang, S. Deng, M. L. Lock, T. Cao, N. Oo, H. W. Lim, B. Hooi
- Organizacja: USENIX Security ‘24
- Rok: 2023 (data collection: July-December 2023)
Charakterystyka
- Rozmiar: Varies (publikacja użyła sampel 1000 stron: 500 phishing + 500 legitimate)
- Podział: Balanced, manually labeled samples
- Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
- Format: URLs, HTML, visual screenshots
- Licencja: Research use (check repository for details)
Opis
TR-OP Dataset to manually labeled i balanced dataset do phishing detection. Charakteryzuje się:
Benign samples:
- Pochodzą z Tranco top 50k domains
- Reprezentują najbardziej popularne i zaufane strony
Phishing samples:
- Crawled i validated w okresie 6 miesięcy (July-December 2023)
- Obejmują 440 unique phishing targets
- Źródło: OpenPhish
- Manually verified dla quality assurance
Dataset jest szczególnie wartościowy ze względu na:
- Temporal freshness (recent phishing campaigns)
- Manual labeling (wysokiej jakości ground truth)
- Balanced distribution (eliminuje class imbalance)
- Real-world phishing targets (diverse brand impersonation)
Zastosowania
- Reference-based phishing detection
- Multimodal phishing analysis (text + visual)
- Brand impersonation detection
- Benchmarking detection systems na recent phishing tactics
- Research w LLM-based security applications
- Temporal analysis phishing evolution
Używany w publikacjach
- phishdebate-2025 - Scenario analysis dla robustness testing multi-agent debate framework
Benchmarki
| Model/System | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| KnowPhish | - | - | 2024 | KnowPhish (USENIX Security ‘24) |
| PhishDebate (avg) | Accuracy | ~94% | 2025 | PhishDebate (averaged with Mendeley) |
Uwagi
Zalety:
- Manual labeling zapewnia high-quality ground truth
- Recent data (2023) - aktualne phishing tactics
- Balanced dataset - eliminuje training bias
- 440 unique targets - dobra różnorodność brand impersonation
Ważne:
- Dataset może wymagać periodic updates (phishing URLs mogą expire)
- Temporal window (July-Dec 2023) - awareness of time-specific tactics
- Benign samples z Tranco top 50k - ensure reprezentatywność popular websites
- Dostępność przez GitHub repository (sprawdzić access conditions)
Recommended use:
- Idealny do testing modern phishing detection systems
- Szczególnie wartościowy dla reference-based i visual phishing detection
- Dobrze pasuje do LLM-based approaches ze względu na multimodal nature
Tagi
dataset phishing-detection cybersecurity multimodal reference-based brand-impersonation manual-labeling tranco openphish