TR-OP Phishing Dataset

Informacje podstawowe

  • Nazwa: TR-OP Dataset (Tranco-OpenPhish Dataset)
  • Alias: TR-OP, Tranco-OpenPhish
  • Dziedzina: Cybersecurity, Phishing Detection
  • Typ: Web data (URLs, HTML, screenshots)

Źródło

  • URL: https://github.com/code-philia/KnowPhish (referenced in KnowPhish paper)
  • Paper: KnowPhish: Large Language Models Meet Multimodal Knowledge Graphs for Enhancing Reference-Based Phishing Detection (USENIX Security 2024)
  • Autorzy: Y. Li, C. Huang, S. Deng, M. L. Lock, T. Cao, N. Oo, H. W. Lim, B. Hooi
  • Organizacja: USENIX Security ‘24
  • Rok: 2023 (data collection: July-December 2023)

Charakterystyka

  • Rozmiar: Varies (publikacja użyła sampel 1000 stron: 500 phishing + 500 legitimate)
  • Podział: Balanced, manually labeled samples
  • Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
  • Format: URLs, HTML, visual screenshots
  • Licencja: Research use (check repository for details)

Opis

TR-OP Dataset to manually labeled i balanced dataset do phishing detection. Charakteryzuje się:

Benign samples:

  • Pochodzą z Tranco top 50k domains
  • Reprezentują najbardziej popularne i zaufane strony

Phishing samples:

  • Crawled i validated w okresie 6 miesięcy (July-December 2023)
  • Obejmują 440 unique phishing targets
  • Źródło: OpenPhish
  • Manually verified dla quality assurance

Dataset jest szczególnie wartościowy ze względu na:

  • Temporal freshness (recent phishing campaigns)
  • Manual labeling (wysokiej jakości ground truth)
  • Balanced distribution (eliminuje class imbalance)
  • Real-world phishing targets (diverse brand impersonation)

Zastosowania

  • Reference-based phishing detection
  • Multimodal phishing analysis (text + visual)
  • Brand impersonation detection
  • Benchmarking detection systems na recent phishing tactics
  • Research w LLM-based security applications
  • Temporal analysis phishing evolution

Używany w publikacjach

  • phishdebate-2025 - Scenario analysis dla robustness testing multi-agent debate framework

Benchmarki

Model/SystemMetricScoreRokPublikacja
KnowPhish--2024KnowPhish (USENIX Security ‘24)
PhishDebate (avg)Accuracy~94%2025PhishDebate (averaged with Mendeley)

Uwagi

Zalety:

  • Manual labeling zapewnia high-quality ground truth
  • Recent data (2023) - aktualne phishing tactics
  • Balanced dataset - eliminuje training bias
  • 440 unique targets - dobra różnorodność brand impersonation

Ważne:

  • Dataset może wymagać periodic updates (phishing URLs mogą expire)
  • Temporal window (July-Dec 2023) - awareness of time-specific tactics
  • Benign samples z Tranco top 50k - ensure reprezentatywność popular websites
  • Dostępność przez GitHub repository (sprawdzić access conditions)

Recommended use:

  • Idealny do testing modern phishing detection systems
  • Szczególnie wartościowy dla reference-based i visual phishing detection
  • Dobrze pasuje do LLM-based approaches ze względu na multimodal nature

Tagi

dataset phishing-detection cybersecurity multimodal reference-based brand-impersonation manual-labeling tranco openphish