Phishpedia Dataset Collection
Metadane
- Źródło: Lin et al., USENIX Security 2021
- Strona projektu: https://sites.google.com/view/phishpedia-site/home
- GitHub: https://github.com/lindsey98/Phishpedia
- Dostęp: Publiczny (Google Drive, link na stronie projektu)
- Licencja: Academic/research use
Zawartość — 6 zbiorów danych
1. Target List (Brand Reference Database)
- Rozmiar: 181 chronionych marek
- Zawartość: Per marka: loga PNG (numerowane 0–N + add*.png),
homepage.png,loginpage.png,homepage_html.txt,login_html.txt,tfidf.csv - Format: folder per marka (
targetlist_fit_copy_half_rename/{brand}/) - Status lokalny: ✅ Pobrano —
data/bank-brand-phishing-detection/phishpedia-targetlist-official/targetlist_fit_copy_half_rename/(246 MB, 181 folderów, 4309 plików, data pliku: luty 2021) - Zastosowanie: Baza referencyjna dla brand matching (M2b) — punkt startowy naszego Financial Brand KB
2. Phishing Dataset
- Rozmiar: 29,496 phishing stron
- Zawartość: Screenshoty + URL + metadane
- Zastosowanie: Trening M2 / ewaluacja end-to-end (uzupełnienie Ji & Kim 2025)
3. Phishing Dataset (5 Brand Subset)
- Marki: Bank of America, Chase, DHL, Microsoft, PayPal
- Zawartość: Phishing stron impersonujące te 5 marek
- Zastosowanie: Focused evaluation per brand; financial brand subset (BoA + Chase + PayPal)
4. Benign Dataset
- Rozmiar: 30,649 legalnych stron
- Zawartość: Screenshoty legalnych stron z różnych kategorii
- Zastosowanie: Negative examples dla treningu; false positive testing
5. ⭐ Labelled Logo Dataset
- Rozmiar: 30,649 stron z adnotacjami logo (ground-truth bounding box)
- Zawartość: Screenshoty legalnych stron + bounding box logo + brand label
- Zastosowanie: KLUCZOWY — trening M2a logo localization (Deformable DETR)
- Porównanie z LogoSENSE: 30,649 vs 5,039 → 6× większy, bardziej zróżnicowany
- Uwaga: To dataset legalnych stron z logo — trening detectora gdzie logo są, nie phishing classification
6. Phishing Discovery Results
- Zawartość: Rzeczywiste phishing znalezione przez Phishpedia + inne systemy (1,704 stron, 1,133 zero-day)
- Zastosowanie: Real-world validation; przykłady zero-day phishing
Zalecana strategia użycia w projekcie
M2a Logo Localization (trening):
Primary: Phishpedia Labelled Logo Dataset (30,649, bounding box)
Secondary: LogoSENSE (5,039, bounding box — jako test set)
M2b Brand Matching:
Brand KB seed: Phishpedia Target List (181 marek) → rozszerzyć do 150+ financial
End-to-end ewaluacja:
Primary benchmark: Ji & Kim 2025 (19,131 phishing + 243 benign)
Secondary: Phishpedia Phishing Dataset (29,496)
Negative: Phishpedia Benign Dataset (30,649)
Porównanie ze zbiorami w bazie
| Dataset | Phishing | Benign | Logo annotations | Dostęp |
|---|---|---|---|---|
| Phishpedia Labelled Logo | 0 | 30,649 | ✅ bounding box | Publiczny |
| Phishpedia Phishing | 29,496 | 0 | ❌ | Publiczny |
| Ji & Kim 2025 | 19,131 | 243 | ❌ | Publiczny |
| LogoSENSE | ~1,979 | ~3,060 | ✅ bounding box | GitHub |
| PhiUSIIL | 235k | 230k | ❌ | UCI ML Repo |
Używany w publikacjach
publications/references/lin-phishpedia-usenix-2021/— Phishpedia (oryginalny paper)publications/references/liu-phishintention-usenix-2022/— PhishIntention (ten sam team, rozszerzenie)publications/references/ji-llm-phishing-detection-2025/— Ji & Kim 2025 (używa Phishpedia jako baseline)
Notatki
Priorytet: pobierz Labelled Logo Dataset (30,649 z bounding box) — zastępuje LogoSENSE jako główny training set dla M2a. Znacznie większy i bardziej zróżnicowany. Phishing Dataset (29,496) jako dodatkowy negatyw / trening.