APWG EvalPhishing Dataset

Metadane

Zawartość lokalna

Rozmiar i zakres

Dataset apwg451514 obejmuje 451,514 stron z lat 2021–2023. Posiadamy pełny dataset:

OkresMiesiąceRozmiar (skompresowany)
2021-071,612 MB
2021-082,323 MB
2021-093,198 MB
2021-108,155 MB
2021-1112,277 MB
2021-121,578 MB
2022-013,586 MB
2022-022,526 MB
2022-033,716 MB
2022-0418,935 MB
2022-056,156 MB
2022-066,827 MB
2022-074,721 MB
2022-0813,770 MB
2022-096,229 MB
2022-109,779 MB
2022-119,189 MB
2022-1210,008 MB
2023-0111,224 MB
2023-024,632 MB
2023-03931 MB
2023-041,988 MB
2023-053,504 MB
2023-064,911 MB
2023-074,377 MB
Łącznie25 miesięcy (lip 2021 – lip 2023)~152 GB

Szacowana liczba stron: ~451,514 (zgodnie z nazwą folderu apwg451514; weryfikacja przez tar -tzf).

Struktura archiwów

evalpishing.zip
└── data/
    └── apwg451514/
        ├── 2021-07.tar.gz
        ├── 2021-08.tar.gz
        ├── 2021-09.tar.gz
        └── 2021-10.tar.gz

Wewnątrz każdego .tar.gz:

2021-07/
├── 2021-07-24/
│   ├── 2021-07-24-9925.png    ← screenshot strony phishingowej
│   ├── 2021-07-24-9925.html   ← pełny HTML strony
│   ├── 2021-07-24-9599.png
│   ├── 2021-07-24-9599.html
│   └── ...
├── 2021-07-17/
│   └── ...
└── ...

Format pliku: {YYYY-MM-DD}-{id}.{html|png} — każda strona ma dwa pliki (HTML + screenshot).

Marki w datasecie (próbka z 2021-07)

Z analizy tytułów HTML 30 losowych stron z 2021-07:

MarkaKategoria
Crédit AgricoleBank (FR)
ChaseBank (US)
Lloyds BankBank (UK)
Itaú CardBank (BR)
OrangeTelecom (FR)
FacebookSocial media
NetflixStreaming
Apple SupportTech
Rakuten (楽天)E-commerce (JP)

Dataset jest wielojęzykowy (angielski, francuski, portugalski, japoński) i pokrywa instytucje finansowe z wielu krajów.

Co NIE jest w datasecie

  • Brak etykiet marek — target brand musi być wydobyty z HTML (tytuł, treść, logo)
  • Brak URL — tylko zawartość strony (HTML + screenshot), bez oryginalnego adresu
  • Brak etykiet benign — dataset zawiera wyłącznie phishing (wszystkie strony są złośliwe)
  • Pełny dataset (451k): nie otrzymano archiwów za 2021-11 do 2023-12

Porównanie z innymi datasetami

DatasetLiczba stronFormatEtykietyStatus
APWG EvalPhishing44,020 (podzbiór)HTML + PNGbrak brand✅ Lokalnie
Phishpedia 30k29,496HTML + PNGbrand (277 marek)✅ Lokalnie
PhishBlitz13,800HTML + PNGbrak⏳ Link zapisany
LogoSENSE phish~1,979PNG5 marek⏳ Do pobrania

Zastosowanie w projekcie FinPhishGuard

EksperymentZastosowanie
EXP-5 — end-to-end ewaluacjaGłówny benchmark dla FinPhishGuard vs. baseline’ów (PhishIntention, KnowPhish)
M1 — URL AnalyzerN/A (brak URL w datasecie)
M2b — CLIP brand matchingTest recall per marka po wyekstrahowaniu tytułów
M3 — NER contentEkstrakcja nazw marek z HTML
EXP-6 — brand breakdownAnaliza per marka po auto-labelowaniu z HTML title

Auto-labelowanie

Ponieważ dataset nie zawiera etykiet marek, należy zastosować:

  1. Ekstrakcja <title> z HTML → dopasowanie do Brand KB
  2. CLIP screenshot → dopasowanie logo do Brand KB
  3. Weryfikacja manualna próbki (100–200 stron) dla inter-rater reliability

Kontekst z literatury

Ji et al. (2024) użyli pełnego datasetu (451,514 stron, 2021–2023) do ewaluacji systemów:

SystemRecall (real-world 451k)vs. Recall (własny test set)
DynaPhish22%~90%
PhishIntention49–66%~90%
Phishpedia57–88%~87%

Te dramatyczne różnice (lab vs. real-world) są główną motywacją projektu FinPhishGuard.

Używany w publikacjach

  • Ji et al. 2024 — główna ewaluacja → publications/with-pdf/ji-robustness-visual-phishing-2024/
  • Ji & Kim 2025 — kontynuacja z LLM → publications/references/ji-kim-2025-llm-phishing/