Custom Phishing Dataset (Phishsense-1B)

Informacje podstawowe

Nazwa: Custom Dataset (Phishsense-1B)
Alias: Custom Dataset, Phishsense Custom
Dziedzina: Cybersecurity, Phishing Detection
Typ: Email text, URLs, short messages

Źródło

URL: Not publicly available
Paper: Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model (arXiv:2503.10944v1)
Autorzy: S.E. Blake
Organizacja: AcuteShrewdSecurity
Rok: 2025

Charakterystyka

Rozmiar: Not specified (evaluation set used)
Podział: Train/Val/Test with stratified sampling
Klasy/Kategorie: 2 klasy (Phishing, Benign)
Format: Text (emails, URLs, messages)
Licencja: Not publicly available

Opis

Custom Dataset utworzony dla treningu i ewaluacji Phishsense-1B. Dataset charakteryzuje się:

Kompozycja:

Balanced corpus: phishing + benign emails
URLs
Short messages

Preprocessing:

Lowercasing
Markup removal
Special character normalization
Subword tokenization

Charakterystyka:

Stratified sampling zapewnia balanced class distribution w train/val/test splits
Fokus na balanced precision-recall performance

Dataset był używany jako primary evaluation benchmark, na którym Phishsense-1B osiągnął near-perfect performance.

Zastosowania

Fine-tuning LLMs dla phishing detection
Evaluation parameter-efficient fine-tuning methods (LoRA)
Benchmarking phishing detection models
Training email security classifiers

Używany w publikacjach

phishsense-1b-2025 - Primary evaluation dataset dla LoRA-based phishing detector

Benchmarki

Model	Metric	Score	Rok	Publikacja
Phishsense-1B	Accuracy	97.5%	2025	Phishsense-1B
Phishsense-1B	Recall	100%	2025	Phishsense-1B
Phishsense-1B	ROC AUC	1.000	2025	Phishsense-1B
BERT-finetuned	Accuracy	62.5%	2025	Phishsense-1B
Llama-Guard-3-1B	Accuracy	50.0%	2025	Phishsense-1B

Uwagi

Ograniczenia dostępności:

Dataset nie jest publicznie dostępny
Szczegóły train set nie opisane w publikacji
Użyty głównie do evaluation

Kluczowe cechy:

Balanced distribution - unika class imbalance bias
Near-perfect benchmark results (ROC AUC = 1.0) sugerują wysoką jakość labeling
Fokus na email phishing (vs website phishing w innych datasets)

Dla porównania z RealDaten:

Custom Dataset: łatwiejszy, higher quality labels → 97.5% accuracy
RealDaten: challenging, noisy, real-world → 70% accuracy
Ten dataset reprezentuje “ideal conditions” vs real-world complexity

Tagi

dataset phishing-detection cybersecurity email-security llm lora evaluation private-dataset