APWG EvalPhishing Dataset

Metadane

Autorzy: Fengpan Ji, Doowon Kim (University of Tennessee, Knoxville)
Powiązane publikacje:
- Ji et al. 2024 — “A Large-Scale Evaluation of Phishing Detection Systems on Real-World Phishing Websites”
- Ji & Kim 2025 — “How Can We Effectively Use LLMs for Phishing Detection?” (arXiv:2511.09606)
Źródło: APWG (Anti-Phishing Working Group) — dane uzyskane bezpośrednio od autorów
Kontakt: Doowon Kim (LinkedIn, maj 2026)
OneDrive (pełny dataset): https://liveutk-my.sharepoint.com/personal/fji1_vols_utk_edu/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Ffji1%5Fvols%5Futk%5Fedu%2FDocuments%2FEvalPhishing%2Fdata%2Fapwg451514&viewid=69626522%2D7598%2D4461%2D95f7%2D13b849960923
Status: ✅ Pobrano lokalnie — pełny dataset: 25 miesięcy (451,514 stron, 152 GB skompresowane)
Licencja: Academic/research use (na prośbę autorów)
Kategoria: Security / Visual Phishing / Real-World Benchmark

Zawartość lokalna

Rozmiar i zakres

Dataset apwg451514 obejmuje 451,514 stron z lat 2021–2023. Posiadamy pełny dataset:

Okres	Miesiące	Rozmiar (skompresowany)
2021-07	1,612 MB
2021-08	2,323 MB
2021-09	3,198 MB
2021-10	8,155 MB
2021-11	12,277 MB
2021-12	1,578 MB
2022-01	3,586 MB
2022-02	2,526 MB
2022-03	3,716 MB
2022-04	18,935 MB
2022-05	6,156 MB
2022-06	6,827 MB
2022-07	4,721 MB
2022-08	13,770 MB
2022-09	6,229 MB
2022-10	9,779 MB
2022-11	9,189 MB
2022-12	10,008 MB
2023-01	11,224 MB
2023-02	4,632 MB
2023-03	931 MB
2023-04	1,988 MB
2023-05	3,504 MB
2023-06	4,911 MB
2023-07	4,377 MB
Łącznie	25 miesięcy (lip 2021 – lip 2023)	~152 GB

Szacowana liczba stron: ~451,514 (zgodnie z nazwą folderu apwg451514; weryfikacja przez tar -tzf).

Struktura archiwów

evalpishing.zip
└── data/
    └── apwg451514/
        ├── 2021-07.tar.gz
        ├── 2021-08.tar.gz
        ├── 2021-09.tar.gz
        └── 2021-10.tar.gz

Wewnątrz każdego .tar.gz:

2021-07/
├── 2021-07-24/
│   ├── 2021-07-24-9925.png    ← screenshot strony phishingowej
│   ├── 2021-07-24-9925.html   ← pełny HTML strony
│   ├── 2021-07-24-9599.png
│   ├── 2021-07-24-9599.html
│   └── ...
├── 2021-07-17/
│   └── ...
└── ...

Format pliku: {YYYY-MM-DD}-{id}.{html|png} — każda strona ma dwa pliki (HTML + screenshot).

Marki w datasecie (próbka z 2021-07)

Z analizy tytułów HTML 30 losowych stron z 2021-07:

Marka	Kategoria
Crédit Agricole	Bank (FR)
Chase	Bank (US)
Lloyds Bank	Bank (UK)
Itaú Card	Bank (BR)
Orange	Telecom (FR)
Facebook	Social media
Netflix	Streaming
Apple Support	Tech
Rakuten (楽天)	E-commerce (JP)

Dataset jest wielojęzykowy (angielski, francuski, portugalski, japoński) i pokrywa instytucje finansowe z wielu krajów.

Co NIE jest w datasecie

Brak etykiet marek — target brand musi być wydobyty z HTML (tytuł, treść, logo)
Brak URL — tylko zawartość strony (HTML + screenshot), bez oryginalnego adresu
Brak etykiet benign — dataset zawiera wyłącznie phishing (wszystkie strony są złośliwe)
Pełny dataset (451k): nie otrzymano archiwów za 2021-11 do 2023-12

Porównanie z innymi datasetami

Dataset	Liczba stron	Format	Etykiety	Status
APWG EvalPhishing	44,020 (podzbiór)	HTML + PNG	brak brand	✅ Lokalnie
Phishpedia 30k	29,496	HTML + PNG	brand (277 marek)	✅ Lokalnie
PhishBlitz	13,800	HTML + PNG	brak	⏳ Link zapisany
LogoSENSE phish	~1,979	PNG	5 marek	⏳ Do pobrania

Zastosowanie w projekcie FinPhishGuard

Eksperyment	Zastosowanie
EXP-5 — end-to-end ewaluacja	Główny benchmark dla FinPhishGuard vs. baseline’ów (PhishIntention, KnowPhish)
M1 — URL Analyzer	N/A (brak URL w datasecie)
M2b — CLIP brand matching	Test recall per marka po wyekstrahowaniu tytułów
M3 — NER content	Ekstrakcja nazw marek z HTML
EXP-6 — brand breakdown	Analiza per marka po auto-labelowaniu z HTML title

Auto-labelowanie

Ponieważ dataset nie zawiera etykiet marek, należy zastosować:

Ekstrakcja <title> z HTML → dopasowanie do Brand KB
CLIP screenshot → dopasowanie logo do Brand KB
Weryfikacja manualna próbki (100–200 stron) dla inter-rater reliability

Kontekst z literatury

Ji et al. (2024) użyli pełnego datasetu (451,514 stron, 2021–2023) do ewaluacji systemów:

System	Recall (real-world 451k)	vs. Recall (własny test set)
DynaPhish	22%	~90%
PhishIntention	49–66%	~90%
Phishpedia	57–88%	~87%

Te dramatyczne różnice (lab vs. real-world) są główną motywacją projektu FinPhishGuard.

Używany w publikacjach

Ji et al. 2024 — główna ewaluacja → publications/with-pdf/ji-robustness-visual-phishing-2024/
Ji & Kim 2025 — kontynuacja z LLM → publications/references/ji-kim-2025-llm-phishing/

Research

Przeglądaj

apwg-evalphishing