RealDaten Phishing Dataset

Informacje podstawowe

  • Nazwa: RealDaten Dataset
  • Alias: RealDaten, Real Daten
  • Dziedzina: Cybersecurity, Phishing Detection
  • Typ: Real-world phishing and benign data

Źródło

  • URL: Not publicly available
  • Paper: Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model (arXiv:2503.10944v1)
  • Autorzy: S.E. Blake
  • Organizacja: AcuteShrewdSecurity
  • Rok: 2025

Charakterystyka

  • Rozmiar: Not specified
  • Podział: Evaluation set
  • Klasy/Kategorie: 2 klasy (Phishing, Benign)
  • Format: Text (emails, URLs)
  • Licencja: Not publicly available

Opis

RealDaten to challenging real-world dataset używany do ewaluacji robustness modeli phishing detection. Dataset charakteryzuje się:

Kluczowe cechy:

  • Noisy data: więcej noise niż w clean evaluation datasets
  • Diverse: szeroka różnorodność phishing tactics i benign examples
  • Real-world: reprezentuje operational conditions, nie laboratory conditions

Challenging aspects:

  • Modele osiągają znacząco niższą accuracy na RealDaten vs clean datasets
  • Phishsense-1B: 97.5% (Custom) → 70% (RealDaten)
  • BERT: 62.5% (Custom) → 55% (RealDaten)
  • Test true robustness detection systems

Dataset służy jako “stress test” dla phishing detectors - jeśli model radzi sobie dobrze na RealDaten, prawdopodobnie będzie działać w production.

Zastosowania

  • Robustness testing phishing detection models
  • Evaluation real-world performance vs laboratory benchmarks
  • Testing model generalization capabilities
  • Identifying failure modes w noisy conditions

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
Phishsense-1BAccuracy70%2025Phishsense-1B
Phishsense-1BRecall90%2025Phishsense-1B
Phishsense-1BF1 Score75%2025Phishsense-1B
Phishsense-1BROC AUC0.7952025Phishsense-1B
BERT-finetunedAccuracy55%2025Phishsense-1B
BERT-finetunedRecall100%2025Phishsense-1B

Uwagi

Dlaczego RealDaten jest challenging:

  • Noisier labels (real-world annotation difficulty)
  • More diverse phishing tactics (evolving threats)
  • Edge cases i ambiguous examples
  • Reprezentuje operational deployment conditions

Performance insights:

  • Phishsense-1B utrzymuje 90% recall (high security) mimo 70% accuracy
  • BERT osiąga 100% recall ale precision tylko 52.6% (zbyt wiele false positives)
  • Unadapted Llama-Guard-3-1B całkowicie zawodzi (F1=0.0)

Praktyczne implikacje:

  • 70% accuracy na RealDaten może być akceptowalne w production
  • Kluczowy trade-off: recall (security) vs precision (operational efficiency)
  • Phishsense-1B balansuje oba (90% recall, 64.3% precision)

Dostępność:

  • Dataset nie jest publicznie dostępny
  • Brak szczegółów o source/composition w publikacji

Tagi

dataset phishing-detection cybersecurity real-world challenging robustness-testing evaluation private-dataset