Custom Phishing Dataset (Phishsense-1B)

Informacje podstawowe

  • Nazwa: Custom Dataset (Phishsense-1B)
  • Alias: Custom Dataset, Phishsense Custom
  • Dziedzina: Cybersecurity, Phishing Detection
  • Typ: Email text, URLs, short messages

Źródło

  • URL: Not publicly available
  • Paper: Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model (arXiv:2503.10944v1)
  • Autorzy: S.E. Blake
  • Organizacja: AcuteShrewdSecurity
  • Rok: 2025

Charakterystyka

  • Rozmiar: Not specified (evaluation set used)
  • Podział: Train/Val/Test with stratified sampling
  • Klasy/Kategorie: 2 klasy (Phishing, Benign)
  • Format: Text (emails, URLs, messages)
  • Licencja: Not publicly available

Opis

Custom Dataset utworzony dla treningu i ewaluacji Phishsense-1B. Dataset charakteryzuje się:

Kompozycja:

  • Balanced corpus: phishing + benign emails
  • URLs
  • Short messages

Preprocessing:

  • Lowercasing
  • Markup removal
  • Special character normalization
  • Subword tokenization

Charakterystyka:

  • Stratified sampling zapewnia balanced class distribution w train/val/test splits
  • Fokus na balanced precision-recall performance

Dataset był używany jako primary evaluation benchmark, na którym Phishsense-1B osiągnął near-perfect performance.

Zastosowania

  • Fine-tuning LLMs dla phishing detection
  • Evaluation parameter-efficient fine-tuning methods (LoRA)
  • Benchmarking phishing detection models
  • Training email security classifiers

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
Phishsense-1BAccuracy97.5%2025Phishsense-1B
Phishsense-1BRecall100%2025Phishsense-1B
Phishsense-1BROC AUC1.0002025Phishsense-1B
BERT-finetunedAccuracy62.5%2025Phishsense-1B
Llama-Guard-3-1BAccuracy50.0%2025Phishsense-1B

Uwagi

Ograniczenia dostępności:

  • Dataset nie jest publicznie dostępny
  • Szczegóły train set nie opisane w publikacji
  • Użyty głównie do evaluation

Kluczowe cechy:

  • Balanced distribution - unika class imbalance bias
  • Near-perfect benchmark results (ROC AUC = 1.0) sugerują wysoką jakość labeling
  • Fokus na email phishing (vs website phishing w innych datasets)

Dla porównania z RealDaten:

  • Custom Dataset: łatwiejszy, higher quality labels → 97.5% accuracy
  • RealDaten: challenging, noisy, real-world → 70% accuracy
  • Ten dataset reprezentuje “ideal conditions” vs real-world complexity

Tagi

dataset phishing-detection cybersecurity email-security llm lora evaluation private-dataset