Ji & Kim 2025 Phishing Dataset
Metadane
- Autorzy: Fujiao Ji, Doowon Kim (University of Tennessee, Knoxville)
- Rok: 2025
- Źródło: arXiv:2511.09606 — “How Can We Effectively Use LLMs for Phishing Detection?”
- Status: ✉️ Opcjonalny — wymaga kontaktu z autorami
- Dostęp: Brak publicznego linku (stan: 2026-05-12); email: [email protected], [email protected]
- Kategoria: Security / Visual Phishing / Benchmark
Zawartość
| Zbiór | Liczba | Format |
|---|---|---|
| Phishing stron | 19,131 | Screenshot + HTML + URL |
| Benign stron | 243 | Screenshot + HTML + URL |
| Razem | 19,374 | — |
Uwaga: 243 benign to za mało do oceny FPR — w EXP-5 supplement o Tranco top-5k.
Dlaczego wartościowy
- Największy opublikowany dataset real-world phishing z screenshotami (stan 2025)
- Zbierany metodą PhishTank + Playwright → łatwy do porównania z własnym crawlem
- Używany jako benchmark przez 7 LLMów (GPT-4.1, Gemini 2.0, + 5 open-source)
- Zawiera phishing aktywny w konkretnym oknie czasowym → bardziej realistyczny niż archiwalne
Użycie w projekcie
EXP-5 benchmark (jeśli dostępny):
Phishing: Ji & Kim 2025 (19,131) ← primary
Benign: Tranco top-5k + Ji 243 ← supplement
Bez odpowiedzi autorów → zastąp:
Phishing: phishtank-crawl-2026 (5,000)
Benign: Tranco top-5k (5,000)
Alternatywa
datasets/phishtank-crawl-2026.md — własny crawl identyczną metodologią, w pełni kontrolowany.
Używany w publikacjach
publications/references/ji-llm-phishing-detection-2025/— paper oryginalnyprojects/bank-brand-phishing-detection/— EXP-5