Dataset Acquisition — FinPhishGuard

Data: 2026-05-12
Projekt: bank-brand-phishing-detection


Status pobierania

DatasetStatusŚcieżka lokalna
PhiUSIIL (~465k URL, 54 MB CSV)✅ Pobranodata/.../phiusiil/PhiUSIIL_Phishing_URL_Dataset.csv
Tranco top-1M (benign URLs)✅ Pobranodata/.../alexa-benign/top-1m.csv
Phishpedia code (repo GitHub)✅ Sklonowanodata/.../phishpedia/
Phishpedia 30k phishing benchmark (18 GB ZIP)✅ Pobranodata/.../phishpedia/phishpedia_30k_benchmark.zip
LogoSENSE code + SVM imageset✅ Pobranodata/.../gdrive-logosense/ (348 plików, 21.5 MB)
gdrive-targetlist (T102_*.png loga marek)✅ Pobranodata/.../gdrive-targetlist/ (21 plików, 45.3 MB)
gdrive-emd (pliki progów EMD)✅ Pobranodata/.../gdrive-emd/ (9 plików, 28.6 MB)
expand_targetlist.zip (loga per brand, 277 marek)✅ Pobranodata/.../phishpedia/models/expand_targetlist.zip
rcnn_bet365.pth (logo detector weights)✅ Pobranodata/.../phishpedia/models/rcnn_bet365.pth
resnetv2_rgb_new.pth.tar (Siamese weights)✅ Pobranodata/.../phishpedia/models/resnetv2_rgb_new.pth.tar
domain_map.pkl✅ Pobranodata/.../phishpedia/models/domain_map.pkl (211 KB)
faster_rcnn.yaml✅ Pobranodata/.../phishpedia/models/faster_rcnn.yaml (2 KB)
Phishpedia Targetlist (181 marek, loga + HTML)✅ Pobranodata/.../phishpedia-targetlist-official/targetlist_fit_copy_half_rename/ (246 MB, 181 folderów)
Phishpedia Benign 30k (restricted GDrive)⬇️ Do ręcznego pobraniapatrz linki poniżej
Phishpedia Labelled Logo (30,649 BBox)⬇️ Do ręcznego pobraniapatrz linki poniżej
APWG EvalPhishing (pełny dataset)✅ Pobranodata/bank-brand-phishing-detection/evalphishing/152 GB, ~451 514 stron, 25 miesięcy (lip 2021–lip 2023)
LogoSENSE obrazy (~1.6 GB ZIP)✅ Pobranodata/.../logosense/logosense_base_data.zip
Phishpedia 5-Brand (BoA/Chase/PayPal/DHL/MS)⬇️ Do ręcznego pobraniapatrz linki poniżej
PhishBlitz (13.8k stron 2025)⏳ Do pobrania gdy wolne miejscepatrz link #3

Linki do ręcznego pobrania (otwórz w przeglądarce — wymagane logowanie Google)

Priorytet 1 — Modele Phishpedia (wymagane do uruchomienia systemu)

Otwórz każdy link → poczekaj na przygotowanie pliku → pobierz

Po pobraniu → umieść wszystkie w:

data/bank-brand-phishing-detection/phishpedia/models/

Priorytet 2 — Datasety Phishpedia (ze strony projektu)

Strona główna: https://sites.google.com/view/phishpedia-site/home

CoLinkRozmiar est.Cel
Benign Dataset (30,649)https://drive.google.com/uc?id=1yORUeSrF5vGcgxYrsCoqXcpOUHt-iHq_~15 GBNegative examples
Labelled Logo Part 2https://drive.google.com/uc?id=1bH3Yp6K1B37B_sS_MNMz7yvYcOhOu-J8~8 GBBBox training
Labelled Logo Part 3https://drive.google.com/uc?id=1u56I0IHBgM9glNJl2wcLfaihp1L_U7eD~8 GBBBox training
Targetlist (181 brands)https://drive.google.com/uc?id=1zxvXFKpLx816VfaGFISL6tod-zSEc6hY~50 MBBrand KB seed
5-Brand Phishing (BoA/Chase/PayPal/DHL/MS)https://drive.google.com/uc?id=1EJnx9oX9wQieF7UPQJeTVg850nZsuxTi~2 GBFinancial brands eval

Po pobraniu → wypakuj do:

data/bank-brand-phishing-detection/phishpedia-labelled-logo/
data/bank-brand-phishing-detection/phishpedia-targetlist-official/
data/bank-brand-phishing-detection/phishpedia-5brand/

Priorytet 3 — Twój GDrive (folder z EMD i targetlist)

Otwórz → prawy klik na folderze → “Download” → ZIP

Po pobraniu ZIP → wypakuj do:

data/bank-brand-phishing-detection/gdrive-emd/
data/bank-brand-phishing-detection/gdrive-targetlist/

Wiadomość #1 — Ji & Kim 2025 dataset (LinkedIn → Doowon Kim)

Do: Doowon Kim (LinkedIn)
Profil: szukaj “Doowon Kim University of Tennessee” na LinkedIn
Paper: arXiv:2511.09606

Hi Doowon,

I'm Kamil Warpechowski, IT Director at NASK (National Research Institute, Poland) — 
we work on national cybersecurity infrastructure including phishing and fraud detection.

I came across your paper "How Can We Effectively Use LLMs for Phishing Detection?" 
(arXiv:2511.09606) and found it very relevant to our research on adversarially robust 
visual phishing detection targeting financial brand impersonation.

Would it be possible to access the dataset of 19,131 phishing websites used in your 
evaluation? We're building a hybrid detection system (URL analysis + visual logo 
matching) and would like to benchmark against your LLM baselines on the same data.

Happy to share results and acknowledge your work in any publications.

Best,
Kamil Warpechowski
IT Director, NASK — National Research Institute

Uwaga: NASK jako instytucja rządowa/badawcza zwiększa szansę odpowiedzi vs anonimowy doktorant.


Formularz #2 — LogoSENSE dataset (obrazy z bounding box)

Formularz dostępu: https://docs.google.com/forms/d/e/1FAIpQLSev9KwRshAXPzq8MPB05J104IMNUDyyWCSDy0El1JIUB1JcoA/viewform

Wypełnij formularz podając:

  • Name: Kamil Warpechowski
  • Institution: NASK — National Research Institute, Poland
  • Purpose: Training and evaluation of a deep learning logo localization model for financial brand phishing detection. The dataset will be used as a held-out test set to evaluate generalization of a logo detector trained on Phishpedia Labelled Logo data.
  • Publication: Will cite “LogoSENSE: A Companion HOG based Logo Detection Scheme…” (Computers & Security, 2020)

Alternatywa: Jeśli brak odpowiedzi — LogoSENSE można zastąpić Phishpedia Labelled Logo (30k stron), który jest większy i lepszy.


Status: Dostęp otrzymany — do pobrania gdy zwolni się miejsce na dysku.

Link do danych (OneDrive IIT Dharwad): https://iitdh-my.sharepoint.com/personal/222011001_iitdh_ac_in/_layouts/15/onedrive.aspx?ga=1&id=%2Fpersonal%2F222011001%5Fiitdh%5Fac%5Fin%2FDocuments%2FPhishBlitz%5FDataset%2FREADME%2Etxt&parent=%2Fpersonal%2F222011001%5Fiitdh%5Fac%5Fin%2FDocuments%2FPhishBlitz%5FDataset

Po pobraniu → wypakuj do: data/bank-brand-phishing-detection/phishblitz/


Priorytet akcji

  1. Natychmiast — przenieś pobrane modele (.pth, .zip) do data/.../phishpedia/models/
  2. Natychmiast — LinkedIn do Doowona Kima (wiadomość #1) — dataset Ji & Kim 2025
  3. Ten tydzień — wypełnij formularz LogoSENSE (link w sekcji #2, niski priorytet jeśli masz Phishpedia Labelled)
  4. Opcjonalnie — pobierz Phishpedia Labelled Logo + Benign 30k ze strony projektu (wymagane do trenowania M2a)