RealDaten Phishing Dataset

Informacje podstawowe

Nazwa: RealDaten Dataset
Alias: RealDaten, Real Daten
Dziedzina: Cybersecurity, Phishing Detection
Typ: Real-world phishing and benign data

Źródło

URL: Not publicly available
Paper: Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model (arXiv:2503.10944v1)
Autorzy: S.E. Blake
Organizacja: AcuteShrewdSecurity
Rok: 2025

Charakterystyka

Rozmiar: Not specified
Podział: Evaluation set
Klasy/Kategorie: 2 klasy (Phishing, Benign)
Format: Text (emails, URLs)
Licencja: Not publicly available

Opis

RealDaten to challenging real-world dataset używany do ewaluacji robustness modeli phishing detection. Dataset charakteryzuje się:

Kluczowe cechy:

Noisy data: więcej noise niż w clean evaluation datasets
Diverse: szeroka różnorodność phishing tactics i benign examples
Real-world: reprezentuje operational conditions, nie laboratory conditions

Challenging aspects:

Modele osiągają znacząco niższą accuracy na RealDaten vs clean datasets
Phishsense-1B: 97.5% (Custom) → 70% (RealDaten)
BERT: 62.5% (Custom) → 55% (RealDaten)
Test true robustness detection systems

Dataset służy jako “stress test” dla phishing detectors - jeśli model radzi sobie dobrze na RealDaten, prawdopodobnie będzie działać w production.

Zastosowania

Robustness testing phishing detection models
Evaluation real-world performance vs laboratory benchmarks
Testing model generalization capabilities
Identifying failure modes w noisy conditions

Używany w publikacjach

phishsense-1b-2025 - Challenging real-world evaluation dataset dla LoRA-based detector

Benchmarki

Model	Metric	Score	Rok	Publikacja
Phishsense-1B	Accuracy	70%	2025	Phishsense-1B
Phishsense-1B	Recall	90%	2025	Phishsense-1B
Phishsense-1B	F1 Score	75%	2025	Phishsense-1B
Phishsense-1B	ROC AUC	0.795	2025	Phishsense-1B
BERT-finetuned	Accuracy	55%	2025	Phishsense-1B
BERT-finetuned	Recall	100%	2025	Phishsense-1B

Uwagi

Dlaczego RealDaten jest challenging:

Noisier labels (real-world annotation difficulty)
More diverse phishing tactics (evolving threats)
Edge cases i ambiguous examples
Reprezentuje operational deployment conditions

Performance insights:

Phishsense-1B utrzymuje 90% recall (high security) mimo 70% accuracy
BERT osiąga 100% recall ale precision tylko 52.6% (zbyt wiele false positives)
Unadapted Llama-Guard-3-1B całkowicie zawodzi (F1=0.0)

Praktyczne implikacje:

70% accuracy na RealDaten może być akceptowalne w production
Kluczowy trade-off: recall (security) vs precision (operational efficiency)
Phishsense-1B balansuje oba (90% recall, 64.3% precision)

Dostępność:

Dataset nie jest publicznie dostępny
Brak szczegółów o source/composition w publikacji

Tagi

dataset phishing-detection cybersecurity real-world challenging robustness-testing evaluation private-dataset