Ji & Kim 2025 Phishing Dataset

Metadane

  • Autorzy: Fujiao Ji, Doowon Kim (University of Tennessee, Knoxville)
  • Rok: 2025
  • Źródło: arXiv:2511.09606 — “How Can We Effectively Use LLMs for Phishing Detection?”
  • Status: ✉️ Opcjonalny — wymaga kontaktu z autorami
  • Dostęp: Brak publicznego linku (stan: 2026-05-12); email: [email protected], [email protected]
  • Kategoria: Security / Visual Phishing / Benchmark

Zawartość

ZbiórLiczbaFormat
Phishing stron19,131Screenshot + HTML + URL
Benign stron243Screenshot + HTML + URL
Razem19,374

Uwaga: 243 benign to za mało do oceny FPR — w EXP-5 supplement o Tranco top-5k.

Dlaczego wartościowy

  • Największy opublikowany dataset real-world phishing z screenshotami (stan 2025)
  • Zbierany metodą PhishTank + Playwright → łatwy do porównania z własnym crawlem
  • Używany jako benchmark przez 7 LLMów (GPT-4.1, Gemini 2.0, + 5 open-source)
  • Zawiera phishing aktywny w konkretnym oknie czasowym → bardziej realistyczny niż archiwalne

Użycie w projekcie

EXP-5 benchmark (jeśli dostępny):
  Phishing: Ji & Kim 2025 (19,131)    ← primary
  Benign:   Tranco top-5k + Ji 243    ← supplement

Bez odpowiedzi autorów → zastąp:
  Phishing: phishtank-crawl-2026 (5,000)
  Benign:   Tranco top-5k (5,000)

Alternatywa

datasets/phishtank-crawl-2026.md — własny crawl identyczną metodologią, w pełni kontrolowany.

Używany w publikacjach

  • publications/references/ji-llm-phishing-detection-2025/ — paper oryginalny
  • projects/bank-brand-phishing-detection/ — EXP-5