Custom Phishing Dataset (Phishsense-1B)
Informacje podstawowe
- Nazwa: Custom Dataset (Phishsense-1B)
- Alias: Custom Dataset, Phishsense Custom
- Dziedzina: Cybersecurity, Phishing Detection
- Typ: Email text, URLs, short messages
Źródło
- URL: Not publicly available
- Paper: Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model (arXiv:2503.10944v1)
- Autorzy: S.E. Blake
- Organizacja: AcuteShrewdSecurity
- Rok: 2025
Charakterystyka
- Rozmiar: Not specified (evaluation set used)
- Podział: Train/Val/Test with stratified sampling
- Klasy/Kategorie: 2 klasy (Phishing, Benign)
- Format: Text (emails, URLs, messages)
- Licencja: Not publicly available
Opis
Custom Dataset utworzony dla treningu i ewaluacji Phishsense-1B. Dataset charakteryzuje się:
Kompozycja:
- Balanced corpus: phishing + benign emails
- URLs
- Short messages
Preprocessing:
- Lowercasing
- Markup removal
- Special character normalization
- Subword tokenization
Charakterystyka:
- Stratified sampling zapewnia balanced class distribution w train/val/test splits
- Fokus na balanced precision-recall performance
Dataset był używany jako primary evaluation benchmark, na którym Phishsense-1B osiągnął near-perfect performance.
Zastosowania
- Fine-tuning LLMs dla phishing detection
- Evaluation parameter-efficient fine-tuning methods (LoRA)
- Benchmarking phishing detection models
- Training email security classifiers
Używany w publikacjach
- phishsense-1b-2025 - Primary evaluation dataset dla LoRA-based phishing detector
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| Phishsense-1B | Accuracy | 97.5% | 2025 | Phishsense-1B |
| Phishsense-1B | Recall | 100% | 2025 | Phishsense-1B |
| Phishsense-1B | ROC AUC | 1.000 | 2025 | Phishsense-1B |
| BERT-finetuned | Accuracy | 62.5% | 2025 | Phishsense-1B |
| Llama-Guard-3-1B | Accuracy | 50.0% | 2025 | Phishsense-1B |
Uwagi
Ograniczenia dostępności:
- Dataset nie jest publicznie dostępny
- Szczegóły train set nie opisane w publikacji
- Użyty głównie do evaluation
Kluczowe cechy:
- Balanced distribution - unika class imbalance bias
- Near-perfect benchmark results (ROC AUC = 1.0) sugerują wysoką jakość labeling
- Fokus na email phishing (vs website phishing w innych datasets)
Dla porównania z RealDaten:
- Custom Dataset: łatwiejszy, higher quality labels → 97.5% accuracy
- RealDaten: challenging, noisy, real-world → 70% accuracy
- Ten dataset reprezentuje “ideal conditions” vs real-world complexity
Tagi
dataset phishing-detection cybersecurity email-security llm lora evaluation private-dataset