Phishpedia Dataset Collection

Metadane

Źródło: Lin et al., USENIX Security 2021
Strona projektu: https://sites.google.com/view/phishpedia-site/home
GitHub: https://github.com/lindsey98/Phishpedia
Dostęp: Publiczny (Google Drive, link na stronie projektu)
Licencja: Academic/research use

Zawartość — 6 zbiorów danych

1. Target List (Brand Reference Database)

Rozmiar: 181 chronionych marek
Zawartość: Per marka: loga PNG (numerowane 0–N + add*.png), homepage.png, loginpage.png, homepage_html.txt, login_html.txt, tfidf.csv
Format: folder per marka (targetlist_fit_copy_half_rename/{brand}/)
Status lokalny: ✅ Pobrano — data/bank-brand-phishing-detection/phishpedia-targetlist-official/targetlist_fit_copy_half_rename/ (246 MB, 181 folderów, 4309 plików, data pliku: luty 2021)
Zastosowanie: Baza referencyjna dla brand matching (M2b) — punkt startowy naszego Financial Brand KB

2. Phishing Dataset

Rozmiar: 29,496 phishing stron
Zawartość: Screenshoty + URL + metadane
Zastosowanie: Trening M2 / ewaluacja end-to-end (uzupełnienie Ji & Kim 2025)

3. Phishing Dataset (5 Brand Subset)

Marki: Bank of America, Chase, DHL, Microsoft, PayPal
Zawartość: Phishing stron impersonujące te 5 marek
Zastosowanie: Focused evaluation per brand; financial brand subset (BoA + Chase + PayPal)

4. Benign Dataset

Rozmiar: 30,649 legalnych stron
Zawartość: Screenshoty legalnych stron z różnych kategorii
Zastosowanie: Negative examples dla treningu; false positive testing

5. ⭐ Labelled Logo Dataset

Rozmiar: 30,649 stron z adnotacjami logo (ground-truth bounding box)
Zawartość: Screenshoty legalnych stron + bounding box logo + brand label
Zastosowanie: KLUCZOWY — trening M2a logo localization (Deformable DETR)
Porównanie z LogoSENSE: 30,649 vs 5,039 → 6× większy, bardziej zróżnicowany
Uwaga: To dataset legalnych stron z logo — trening detectora gdzie logo są, nie phishing classification

6. Phishing Discovery Results

Zawartość: Rzeczywiste phishing znalezione przez Phishpedia + inne systemy (1,704 stron, 1,133 zero-day)
Zastosowanie: Real-world validation; przykłady zero-day phishing

Zalecana strategia użycia w projekcie

M2a Logo Localization (trening):
  Primary:   Phishpedia Labelled Logo Dataset (30,649, bounding box)
  Secondary: LogoSENSE (5,039, bounding box — jako test set)
  
M2b Brand Matching:
  Brand KB seed: Phishpedia Target List (181 marek) → rozszerzyć do 150+ financial

End-to-end ewaluacja:
  Primary benchmark: Ji & Kim 2025 (19,131 phishing + 243 benign)
  Secondary:         Phishpedia Phishing Dataset (29,496)
  Negative:          Phishpedia Benign Dataset (30,649)

Porównanie ze zbiorami w bazie

Dataset	Phishing	Benign	Logo annotations	Dostęp
Phishpedia Labelled Logo	0	30,649	✅ bounding box	Publiczny
Phishpedia Phishing	29,496	0	❌	Publiczny
Ji & Kim 2025	19,131	243	❌	Publiczny
LogoSENSE	~1,979	~3,060	✅ bounding box	GitHub
PhiUSIIL	235k	230k	❌	UCI ML Repo

Używany w publikacjach

publications/references/lin-phishpedia-usenix-2021/ — Phishpedia (oryginalny paper)
publications/references/liu-phishintention-usenix-2022/ — PhishIntention (ten sam team, rozszerzenie)
publications/references/ji-llm-phishing-detection-2025/ — Ji & Kim 2025 (używa Phishpedia jako baseline)

Notatki

Priorytet: pobierz Labelled Logo Dataset (30,649 z bounding box) — zastępuje LogoSENSE jako główny training set dla M2a. Znacznie większy i bardziej zróżnicowany. Phishing Dataset (29,496) jako dodatkowy negatyw / trening.

Research

Przeglądaj

Phishpedia Dataset Collection

Phishpedia Dataset Collection

Metadane

Zawartość — 6 zbiorów danych

1. Target List (Brand Reference Database)

2. Phishing Dataset

3. Phishing Dataset (5 Brand Subset)

4. Benign Dataset

5. ⭐ Labelled Logo Dataset

6. Phishing Discovery Results

Zalecana strategia użycia w projekcie

Porównanie ze zbiorami w bazie

Używany w publikacjach

Notatki

Graf

Spis treści