Zefang Liu Phishing Email Dataset
Informacje podstawowe
- Nazwa: zefang-liu/phishing-email-dataset
- Alias: Phishing Email Dataset (Liu)
- Dziedzina: Cybersecurity, Phishing Detection
- Typ: Email text
Źródło
- URL: https://huggingface.co/datasets/zefang-liu/phishing-email-dataset (inferred)
- Paper: Referenced in Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model (arXiv:2503.10944v1)
- Autorzy: Zefang Liu
- Organizacja: Hugging Face Datasets (inferred)
- Rok: Unknown (referenced in 2025 paper)
Charakterystyka
- Rozmiar: 6000 samples (3000 positive + 3000 negative)
- Podział: Evaluation set
- Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
- Format: Email text
- Licencja: Check Hugging Face repository
Opis
Dataset zawierający phishing i legitimate emails, używany jako evaluation benchmark w badaniach nad wykrywaniem phishingu.
Kompozycja:
- 3000 phishing emails (positive samples)
- 3000 legitimate emails (negative samples)
- Balanced binary classification
Zastosowanie w Phishsense-1B: Dataset był używany do comparative ROC analysis:
- Phishsense-1B osiągnął ROC AUC = 0.98
- Unadapted Llama-Guard-3-1B osiągnął ROC AUC = 0.51
- Demonstracja dramatic improvement po LoRA adaptation
Zastosowania
- Evaluation phishing email detection models
- ROC curve analysis i AUC comparison
- Benchmarking LLM-based phishing detectors
- Binary classification tasks (phishing vs legitimate)
Używany w publikacjach
- phishsense-1b-2025 - ROC comparison evaluation set (3000+3000 samples)
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| Phishsense-1B | ROC AUC | 0.98 | 2025 | Phishsense-1B |
| Llama-Guard-3-1B | ROC AUC | 0.51 | 2025 | Phishsense-1B |
Uwagi
Kluczowe cechy:
- Balanced dataset (eliminuje class imbalance bias)
- Prawdopodobnie dostępny publicznie na Hugging Face
- 6000 samples - umiarkowany rozmiar dla evaluation
ROC Analysis insights:
- Duża różnica AUC (0.98 vs 0.51) pokazuje importance domain-specific fine-tuning
- Unadapted LLM (Llama-Guard-3-1B) niewiele lepszy niż random (AUC ~0.5)
- Phishsense-1B po LoRA adaptation osiąga near-perfect discrimination
Dostępność:
- Prawdopodobnie publicznie dostępny na Hugging Face (zefang-liu/phishing-email-dataset)
- Weryfikacja: sprawdź https://huggingface.co/datasets/zefang-liu/phishing-email-dataset
Tagi
dataset phishing-detection cybersecurity email-security huggingface evaluation roc-analysis balanced-dataset