Zefang Liu Phishing Email Dataset

Informacje podstawowe

  • Nazwa: zefang-liu/phishing-email-dataset
  • Alias: Phishing Email Dataset (Liu)
  • Dziedzina: Cybersecurity, Phishing Detection
  • Typ: Email text

Źródło

Charakterystyka

  • Rozmiar: 6000 samples (3000 positive + 3000 negative)
  • Podział: Evaluation set
  • Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
  • Format: Email text
  • Licencja: Check Hugging Face repository

Opis

Dataset zawierający phishing i legitimate emails, używany jako evaluation benchmark w badaniach nad wykrywaniem phishingu.

Kompozycja:

  • 3000 phishing emails (positive samples)
  • 3000 legitimate emails (negative samples)
  • Balanced binary classification

Zastosowanie w Phishsense-1B: Dataset był używany do comparative ROC analysis:

  • Phishsense-1B osiągnął ROC AUC = 0.98
  • Unadapted Llama-Guard-3-1B osiągnął ROC AUC = 0.51
  • Demonstracja dramatic improvement po LoRA adaptation

Zastosowania

  • Evaluation phishing email detection models
  • ROC curve analysis i AUC comparison
  • Benchmarking LLM-based phishing detectors
  • Binary classification tasks (phishing vs legitimate)

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
Phishsense-1BROC AUC0.982025Phishsense-1B
Llama-Guard-3-1BROC AUC0.512025Phishsense-1B

Uwagi

Kluczowe cechy:

  • Balanced dataset (eliminuje class imbalance bias)
  • Prawdopodobnie dostępny publicznie na Hugging Face
  • 6000 samples - umiarkowany rozmiar dla evaluation

ROC Analysis insights:

  • Duża różnica AUC (0.98 vs 0.51) pokazuje importance domain-specific fine-tuning
  • Unadapted LLM (Llama-Guard-3-1B) niewiele lepszy niż random (AUC ~0.5)
  • Phishsense-1B po LoRA adaptation osiąga near-perfect discrimination

Dostępność:

Tagi

dataset phishing-detection cybersecurity email-security huggingface evaluation roc-analysis balanced-dataset