Ji & Kim 2025 Phishing Dataset

Metadane

Autorzy: Fujiao Ji, Doowon Kim (University of Tennessee, Knoxville)
Rok: 2025
Źródło: arXiv:2511.09606 — “How Can We Effectively Use LLMs for Phishing Detection?”
Status: ✉️ Opcjonalny — wymaga kontaktu z autorami
Dostęp: Brak publicznego linku (stan: 2026-05-12); email: [email protected], [email protected]
Kategoria: Security / Visual Phishing / Benchmark

Zawartość

Zbiór	Liczba	Format
Phishing stron	19,131	Screenshot + HTML + URL
Benign stron	243	Screenshot + HTML + URL
Razem	19,374	—

Uwaga: 243 benign to za mało do oceny FPR — w EXP-5 supplement o Tranco top-5k.

Dlaczego wartościowy

Największy opublikowany dataset real-world phishing z screenshotami (stan 2025)
Zbierany metodą PhishTank + Playwright → łatwy do porównania z własnym crawlem
Używany jako benchmark przez 7 LLMów (GPT-4.1, Gemini 2.0, + 5 open-source)
Zawiera phishing aktywny w konkretnym oknie czasowym → bardziej realistyczny niż archiwalne

Użycie w projekcie

EXP-5 benchmark (jeśli dostępny):
  Phishing: Ji & Kim 2025 (19,131)    ← primary
  Benign:   Tranco top-5k + Ji 243    ← supplement

Bez odpowiedzi autorów → zastąp:
  Phishing: phishtank-crawl-2026 (5,000)
  Benign:   Tranco top-5k (5,000)

Alternatywa

datasets/phishtank-crawl-2026.md — własny crawl identyczną metodologią, w pełni kontrolowany.

Używany w publikacjach

publications/references/ji-llm-phishing-detection-2025/ — paper oryginalny
projects/bank-brand-phishing-detection/ — EXP-5

Research

Przeglądaj

ji-kim-2025-phishing

Ji & Kim 2025 Phishing Dataset

Metadane

Zawartość

Dlaczego wartościowy

Użycie w projekcie

Alternatywa

Używany w publikacjach

Graf

Spis treści