Phishpedia Dataset Collection

Metadane

Zawartość — 6 zbiorów danych

1. Target List (Brand Reference Database)

  • Rozmiar: 181 chronionych marek
  • Zawartość: Per marka: loga PNG (numerowane 0–N + add*.png), homepage.png, loginpage.png, homepage_html.txt, login_html.txt, tfidf.csv
  • Format: folder per marka (targetlist_fit_copy_half_rename/{brand}/)
  • Status lokalny: ✅ Pobrano — data/bank-brand-phishing-detection/phishpedia-targetlist-official/targetlist_fit_copy_half_rename/ (246 MB, 181 folderów, 4309 plików, data pliku: luty 2021)
  • Zastosowanie: Baza referencyjna dla brand matching (M2b) — punkt startowy naszego Financial Brand KB

2. Phishing Dataset

  • Rozmiar: 29,496 phishing stron
  • Zawartość: Screenshoty + URL + metadane
  • Zastosowanie: Trening M2 / ewaluacja end-to-end (uzupełnienie Ji & Kim 2025)

3. Phishing Dataset (5 Brand Subset)

  • Marki: Bank of America, Chase, DHL, Microsoft, PayPal
  • Zawartość: Phishing stron impersonujące te 5 marek
  • Zastosowanie: Focused evaluation per brand; financial brand subset (BoA + Chase + PayPal)

4. Benign Dataset

  • Rozmiar: 30,649 legalnych stron
  • Zawartość: Screenshoty legalnych stron z różnych kategorii
  • Zastosowanie: Negative examples dla treningu; false positive testing

5. ⭐ Labelled Logo Dataset

  • Rozmiar: 30,649 stron z adnotacjami logo (ground-truth bounding box)
  • Zawartość: Screenshoty legalnych stron + bounding box logo + brand label
  • Zastosowanie: KLUCZOWY — trening M2a logo localization (Deformable DETR)
  • Porównanie z LogoSENSE: 30,649 vs 5,039 → 6× większy, bardziej zróżnicowany
  • Uwaga: To dataset legalnych stron z logo — trening detectora gdzie logo są, nie phishing classification

6. Phishing Discovery Results

  • Zawartość: Rzeczywiste phishing znalezione przez Phishpedia + inne systemy (1,704 stron, 1,133 zero-day)
  • Zastosowanie: Real-world validation; przykłady zero-day phishing

Zalecana strategia użycia w projekcie

M2a Logo Localization (trening):
  Primary:   Phishpedia Labelled Logo Dataset (30,649, bounding box)
  Secondary: LogoSENSE (5,039, bounding box — jako test set)
  
M2b Brand Matching:
  Brand KB seed: Phishpedia Target List (181 marek) → rozszerzyć do 150+ financial

End-to-end ewaluacja:
  Primary benchmark: Ji & Kim 2025 (19,131 phishing + 243 benign)
  Secondary:         Phishpedia Phishing Dataset (29,496)
  Negative:          Phishpedia Benign Dataset (30,649)

Porównanie ze zbiorami w bazie

DatasetPhishingBenignLogo annotationsDostęp
Phishpedia Labelled Logo030,649✅ bounding boxPubliczny
Phishpedia Phishing29,4960Publiczny
Ji & Kim 202519,131243Publiczny
LogoSENSE~1,979~3,060✅ bounding boxGitHub
PhiUSIIL235k230kUCI ML Repo

Używany w publikacjach

  • publications/references/lin-phishpedia-usenix-2021/ — Phishpedia (oryginalny paper)
  • publications/references/liu-phishintention-usenix-2022/ — PhishIntention (ten sam team, rozszerzenie)
  • publications/references/ji-llm-phishing-detection-2025/ — Ji & Kim 2025 (używa Phishpedia jako baseline)

Notatki

Priorytet: pobierz Labelled Logo Dataset (30,649 z bounding box) — zastępuje LogoSENSE jako główny training set dla M2a. Znacznie większy i bardziej zróżnicowany. Phishing Dataset (29,496) jako dodatkowy negatyw / trening.