APWG EvalPhishing Dataset
Metadane
- Autorzy: Fengpan Ji, Doowon Kim (University of Tennessee, Knoxville)
- Powiązane publikacje:
- Ji et al. 2024 — “A Large-Scale Evaluation of Phishing Detection Systems on Real-World Phishing Websites”
- Ji & Kim 2025 — “How Can We Effectively Use LLMs for Phishing Detection?” (arXiv:2511.09606)
- Źródło: APWG (Anti-Phishing Working Group) — dane uzyskane bezpośrednio od autorów
- Kontakt: Doowon Kim (LinkedIn, maj 2026)
- OneDrive (pełny dataset): https://liveutk-my.sharepoint.com/personal/fji1_vols_utk_edu/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Ffji1%5Fvols%5Futk%5Fedu%2FDocuments%2FEvalPhishing%2Fdata%2Fapwg451514&viewid=69626522%2D7598%2D4461%2D95f7%2D13b849960923
- Status: ✅ Pobrano lokalnie — pełny dataset: 25 miesięcy (451,514 stron, 152 GB skompresowane)
- Licencja: Academic/research use (na prośbę autorów)
- Kategoria: Security / Visual Phishing / Real-World Benchmark
Zawartość lokalna
Rozmiar i zakres
Dataset apwg451514 obejmuje 451,514 stron z lat 2021–2023. Posiadamy pełny dataset:
| Okres | Miesiące | Rozmiar (skompresowany) |
|---|---|---|
| 2021-07 | 1,612 MB | |
| 2021-08 | 2,323 MB | |
| 2021-09 | 3,198 MB | |
| 2021-10 | 8,155 MB | |
| 2021-11 | 12,277 MB | |
| 2021-12 | 1,578 MB | |
| 2022-01 | 3,586 MB | |
| 2022-02 | 2,526 MB | |
| 2022-03 | 3,716 MB | |
| 2022-04 | 18,935 MB | |
| 2022-05 | 6,156 MB | |
| 2022-06 | 6,827 MB | |
| 2022-07 | 4,721 MB | |
| 2022-08 | 13,770 MB | |
| 2022-09 | 6,229 MB | |
| 2022-10 | 9,779 MB | |
| 2022-11 | 9,189 MB | |
| 2022-12 | 10,008 MB | |
| 2023-01 | 11,224 MB | |
| 2023-02 | 4,632 MB | |
| 2023-03 | 931 MB | |
| 2023-04 | 1,988 MB | |
| 2023-05 | 3,504 MB | |
| 2023-06 | 4,911 MB | |
| 2023-07 | 4,377 MB | |
| Łącznie | 25 miesięcy (lip 2021 – lip 2023) | ~152 GB |
Szacowana liczba stron: ~451,514 (zgodnie z nazwą folderu apwg451514; weryfikacja przez tar -tzf).
Struktura archiwów
evalpishing.zip
└── data/
└── apwg451514/
├── 2021-07.tar.gz
├── 2021-08.tar.gz
├── 2021-09.tar.gz
└── 2021-10.tar.gz
Wewnątrz każdego .tar.gz:
2021-07/
├── 2021-07-24/
│ ├── 2021-07-24-9925.png ← screenshot strony phishingowej
│ ├── 2021-07-24-9925.html ← pełny HTML strony
│ ├── 2021-07-24-9599.png
│ ├── 2021-07-24-9599.html
│ └── ...
├── 2021-07-17/
│ └── ...
└── ...
Format pliku: {YYYY-MM-DD}-{id}.{html|png} — każda strona ma dwa pliki (HTML + screenshot).
Marki w datasecie (próbka z 2021-07)
Z analizy tytułów HTML 30 losowych stron z 2021-07:
| Marka | Kategoria |
|---|---|
| Crédit Agricole | Bank (FR) |
| Chase | Bank (US) |
| Lloyds Bank | Bank (UK) |
| Itaú Card | Bank (BR) |
| Orange | Telecom (FR) |
| Social media | |
| Netflix | Streaming |
| Apple Support | Tech |
| Rakuten (楽天) | E-commerce (JP) |
Dataset jest wielojęzykowy (angielski, francuski, portugalski, japoński) i pokrywa instytucje finansowe z wielu krajów.
Co NIE jest w datasecie
- Brak etykiet marek — target brand musi być wydobyty z HTML (tytuł, treść, logo)
- Brak URL — tylko zawartość strony (HTML + screenshot), bez oryginalnego adresu
- Brak etykiet benign — dataset zawiera wyłącznie phishing (wszystkie strony są złośliwe)
- Pełny dataset (451k): nie otrzymano archiwów za 2021-11 do 2023-12
Porównanie z innymi datasetami
| Dataset | Liczba stron | Format | Etykiety | Status |
|---|---|---|---|---|
| APWG EvalPhishing | 44,020 (podzbiór) | HTML + PNG | brak brand | ✅ Lokalnie |
| Phishpedia 30k | 29,496 | HTML + PNG | brand (277 marek) | ✅ Lokalnie |
| PhishBlitz | 13,800 | HTML + PNG | brak | ⏳ Link zapisany |
| LogoSENSE phish | ~1,979 | PNG | 5 marek | ⏳ Do pobrania |
Zastosowanie w projekcie FinPhishGuard
| Eksperyment | Zastosowanie |
|---|---|
| EXP-5 — end-to-end ewaluacja | Główny benchmark dla FinPhishGuard vs. baseline’ów (PhishIntention, KnowPhish) |
| M1 — URL Analyzer | N/A (brak URL w datasecie) |
| M2b — CLIP brand matching | Test recall per marka po wyekstrahowaniu tytułów |
| M3 — NER content | Ekstrakcja nazw marek z HTML |
| EXP-6 — brand breakdown | Analiza per marka po auto-labelowaniu z HTML title |
Auto-labelowanie
Ponieważ dataset nie zawiera etykiet marek, należy zastosować:
- Ekstrakcja
<title>z HTML → dopasowanie do Brand KB - CLIP screenshot → dopasowanie logo do Brand KB
- Weryfikacja manualna próbki (100–200 stron) dla inter-rater reliability
Kontekst z literatury
Ji et al. (2024) użyli pełnego datasetu (451,514 stron, 2021–2023) do ewaluacji systemów:
| System | Recall (real-world 451k) | vs. Recall (własny test set) |
|---|---|---|
| DynaPhish | 22% | ~90% |
| PhishIntention | 49–66% | ~90% |
| Phishpedia | 57–88% | ~87% |
Te dramatyczne różnice (lab vs. real-world) są główną motywacją projektu FinPhishGuard.
Używany w publikacjach
- Ji et al. 2024 — główna ewaluacja →
publications/with-pdf/ji-robustness-visual-phishing-2024/ - Ji & Kim 2025 — kontynuacja z LLM →
publications/references/ji-kim-2025-llm-phishing/