LogoSENSE — Logo Detection Benchmark for Phishing
Metadane
- Autorzy: Ahmet Selman Bozkir, Murat Aydos
- Rok: 2020
- Źródło: Computers & Security, vol. 95, 101836 (Elsevier)
- DOI: 10.1016/j.cose.2020.101836
- GitHub: https://github.com/SamPlvs/Object-detection-via-HOG-SVM (bazowy kod)
- Status: ✅ Pobrano lokalnie (model + kod, ~22 MB)
- Licencja: Academic/research use
- Kategoria: Security / Visual Phishing / Logo Detection / Benchmark
Zawartość lokalna
Plik ZIP zawiera tylko kod bazowego detektora + wytrenowane modele SVM (bez screenshotów stron — te są osobnym pobraniem z Google Drive).
Struktura katalogu data/bank-brand-phishing-detection/gdrive-logosense/
gdrive-logosense/
├── SVM_imageset/ # Wytrenowane modele SVM per marka
│ ├── Bank of America/
│ │ ├── Positive/ # 18 pozytywnych przykładów logo (HOG features)
│ │ ├── Negative/ # 54 negatywne przykłady
│ │ └── svm_model_cluster0.pkl # Wytrenowany model SVM
│ ├── Chase Personal Banking/ # 18 pos / 54 neg
│ ├── DHL Airways, Inc/ # 18 pos / 54 neg
│ ├── Office365/ # 10 pos / 30 neg
│ └── PayPal Inc/ # 18 pos / 54 neg
├── TestResult/ # Pre-computed wyniki przy progach 0.91-0.97
│ ├── LogoSense_0.91_phish.txt
│ ├── LogoSense_0.91_benign.txt
│ ├── LogoSense_0.93_phish.txt # ← 15,238 phishing + 30,649 benign ocen
│ ├── LogoSense_0.93_benign.txt
│ ├── LogoSense_0.95_phish.txt
│ ├── LogoSense_0.95_benign.txt
│ ├── LogoSense_0.97_phish.txt
│ └── LogoSense_0.97_benign.txt
├── Logosense_5brand.txt # Lista 5 chronionych marek
├── README.md # Instrukcja uruchomienia
├── config.py
├── test.py # Ewaluacja detektora
├── train.py # Trening nowego SVM
└── utils.py
Modele SVM (5 marek)
| Marka | Pozytywne | Negatywne | Model |
|---|---|---|---|
| Bank of America | 18 | 54 | svm_model_cluster0.pkl |
| Chase Personal Banking | 18 | 54 | svm_model_cluster0.pkl |
| DHL Airways, Inc | 18 | 54 | svm_model_cluster0.pkl |
| Office365 | 10 | 30 | svm_model_cluster0.pkl |
| PayPal Inc | 18 | 54 | svm_model_cluster0.pkl |
Modele oparte na HOG + SVM (Histogram of Oriented Gradients + Support Vector Machine). Metoda klasyczna, bez deep learning — szybka, interpretowalny baseline.
Wyniki testów (pre-computed)
TestResult zawiera wyniki detekcji przy 4 progach decyzyjnych (0.91, 0.93, 0.95, 0.97):
| Próg | Zbiór | Liczba ocenionych |
|---|---|---|
| 0.91–0.97 | Phishing (Sampled_phish_5brand) | ~15,238 stron |
| 0.91–0.97 | Benign (benign_sample_30k) | 30,649 stron |
Format wyników: ścieżka_do_shot.png \t przewidywana_marka [score] \t czas_ms
Przykład:
Sampled_phish_5brand/PayPal Inc.+2020-07-04-17`32`34/shot.png PayPal Inc [1.12] 23.7
Sampled_phish_5brand/Bank of America+2019-07-28-23`25`55/shot.png 0 24.3
Gdzie 0 = nie rozpoznano żadnej marki (FN).
Co NIE jest w lokalnym pobraniu
Screenshoty stron phishingowych i benign muszą być pobrane osobno z Google Drive:
- Sampled_phish_5brand (~1,979 stron z 5 marek, używane w papierze)
- benign_sample_30k (30,649 stron benign)
Link do pobrania: https://drive.google.com/drive/folders/1YpKR_Nye4E11FCbPbePAAJG4UcqkIsfZ
Metoda paperu
Bozkir & Aydos (2020) propose HOG+SVM jako companion do istniejących systemów phishingowych (takich jak anty-phishingowe wtyczki przeglądarkowe). Pipeline:
- Ekstrakcja logo z HTML (bounding box z analizy layoutu)
- HOG features z logo crop
- SVM one-vs-rest per marka
- Próg decyzyjny (similarity score ≥ threshold)
Wyniki paperu (Sampled_phish_5brand, threshold=0.93):
- Recall: ~91% (dokładna liczba zależy od marki)
- Precision: ~95%
- Czas: ~23ms per strona
Zastosowanie w projekcie
| Moduł | Zastosowanie |
|---|---|
| M2a ewaluacja | Pre-computed results jako baseline HOG+SVM do porównania z CLIP |
| M2b Brand KB | 5 marek z Positive/ jako seed logo images |
| EXP-1 | LogoSENSE wyniki jako baseline w tabeli mAP logo detection |
Rola w projekcie: LogoSENSE to baseline HOG+SVM dla FinPhishGuard M2. Nasz CLIP zero-shot powinien znacząco przewyższyć HOG+SVM przy jednoczesnej skalowalności do 150+ marek (vs. 5 w LogoSENSE).
Ograniczenia
- Tylko 5 marek (Bank of America, Chase, DHL, Office365, PayPal) — bardzo wąski zakres
- Metoda oparta na HOG/SVM — podatna na drobne zmiany wizualne (obrót, kolor, skala)
- Brak benchmarku na atakach adwersaryjnych
- Screenshoty z lat 2019-2020 — mogą nie odzwierciedlać aktualnych stylów phishingowych
Używany w publikacjach
- Bozkir & Aydos (2020) — oryginalny paper definiujący dataset i metodę
- Ji et al. (2024) — “A Large-Scale Evaluation of Phishing Detection Systems” — LogoSENSE jako jeden z ewaluowanych systemów
- FinPhishGuard (praca własna) — baseline comparison dla M2a