Phish-Blitz: Advancing Phishing Detection with Comprehensive Webpage Resource Collection and Visual Integrity Preservation
Metadane
- Autorzy: Duddu Hriday, Aditya Kulkarni, Vivek Balachandran, Tamal Das
- Rok: 2025
- Źródło: arXiv 2509.08375
- DOI: arXiv:2509.08375
- Status: to-read
- Cytowania: N/A (wrzesień 2025)
- Kategoria: Security / Dataset
- Tagi: to-read phishing dataset visual-phishing tool benchmark #2025 fresh-dataset
Streszczenie
Phish-Blitz to narzędzie do zbierania live phishing i legalnych stron z pełnymi zasobami (screenshoty, logo, HTML) przy zachowaniu visual integrity. Adresuje kluczowy problem: krótki czas życia stron phishingowych (~24-48h) utrudnia zbieranie kompletnych visual datasets. Dostarcza publiczny dataset: 8,809 legalnych + 5,000 phishing stron (wrzesień 2025).
Kluczowe Wnioski
- Dataset: 8,809 legitimate + 5,000 phishing stron (screenshoty + logo + HTML)
- Narzędzie do dalszego zbierania: open-source, można uruchomić dla nowych danych
- Visual integrity: pełne screenshoty z renderowaniem JS (headless browser)
- Aktualny: wrzesień 2025 — najświeższe phishing kampanie
Zastosowanie w projekcie
Dodatkowy dataset do ewaluacji (tertiary benchmark):
- 5,000 phishing stron z wrzesień 2025 → najświeższe ataki
- Uzupełnienie Ji & Kim 2025 (19,131 stron) o jeszcze nowsze data
- Sprawdź: czy zawiera financial brand phishing? → jeśli tak, cenne dla brand-level breakdown
Narzędzie Phish-Blitz:
- Możliwość rozszerzenia: uruchom na nowych phishing URLs z PhishTank/OpenPhish
- Zbierz 1,000-2,000 świeżych phishing stron targeting financial brands
- Koszt: ~1-2 dni CPU time
Notatki
Wrzesień 2025 — bardzo świeży dataset. Sprawdź GitHub czy kod dostępny. Potencjalnie: użyj Phish-Blitz tool do zebrania dodatkowych financial brand phishing stron jako uzupełnienie głównych datasetów.