Zefang Liu Phishing Email Dataset

Informacje podstawowe

Nazwa: zefang-liu/phishing-email-dataset
Alias: Phishing Email Dataset (Liu)
Dziedzina: Cybersecurity, Phishing Detection
Typ: Email text

Źródło

URL: https://huggingface.co/datasets/zefang-liu/phishing-email-dataset (inferred)
Paper: Referenced in Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model (arXiv:2503.10944v1)
Autorzy: Zefang Liu
Organizacja: Hugging Face Datasets (inferred)
Rok: Unknown (referenced in 2025 paper)

Charakterystyka

Rozmiar: 6000 samples (3000 positive + 3000 negative)
Podział: Evaluation set
Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
Format: Email text
Licencja: Check Hugging Face repository

Opis

Dataset zawierający phishing i legitimate emails, używany jako evaluation benchmark w badaniach nad wykrywaniem phishingu.

Kompozycja:

3000 phishing emails (positive samples)
3000 legitimate emails (negative samples)
Balanced binary classification

Zastosowanie w Phishsense-1B: Dataset był używany do comparative ROC analysis:

Phishsense-1B osiągnął ROC AUC = 0.98
Unadapted Llama-Guard-3-1B osiągnął ROC AUC = 0.51
Demonstracja dramatic improvement po LoRA adaptation

Zastosowania

Evaluation phishing email detection models
ROC curve analysis i AUC comparison
Benchmarking LLM-based phishing detectors
Binary classification tasks (phishing vs legitimate)

Używany w publikacjach

phishsense-1b-2025 - ROC comparison evaluation set (3000+3000 samples)

Benchmarki

Model	Metric	Score	Rok	Publikacja
Phishsense-1B	ROC AUC	0.98	2025	Phishsense-1B
Llama-Guard-3-1B	ROC AUC	0.51	2025	Phishsense-1B

Uwagi

Kluczowe cechy:

Balanced dataset (eliminuje class imbalance bias)
Prawdopodobnie dostępny publicznie na Hugging Face
6000 samples - umiarkowany rozmiar dla evaluation

ROC Analysis insights:

Duża różnica AUC (0.98 vs 0.51) pokazuje importance domain-specific fine-tuning
Unadapted LLM (Llama-Guard-3-1B) niewiele lepszy niż random (AUC ~0.5)
Phishsense-1B po LoRA adaptation osiąga near-perfect discrimination

Dostępność:

Prawdopodobnie publicznie dostępny na Hugging Face (zefang-liu/phishing-email-dataset)
Weryfikacja: sprawdź https://huggingface.co/datasets/zefang-liu/phishing-email-dataset

Tagi

dataset phishing-detection cybersecurity email-security huggingface evaluation roc-analysis balanced-dataset