LogoSENSE — Logo Detection Benchmark for Phishing

Metadane

  • Autorzy: Ahmet Selman Bozkir, Murat Aydos
  • Rok: 2020
  • Źródło: Computers & Security, vol. 95, 101836 (Elsevier)
  • DOI: 10.1016/j.cose.2020.101836
  • GitHub: https://github.com/SamPlvs/Object-detection-via-HOG-SVM (bazowy kod)
  • Status: ✅ Pobrano lokalnie (model + kod, ~22 MB)
  • Licencja: Academic/research use
  • Kategoria: Security / Visual Phishing / Logo Detection / Benchmark

Zawartość lokalna

Plik ZIP zawiera tylko kod bazowego detektora + wytrenowane modele SVM (bez screenshotów stron — te są osobnym pobraniem z Google Drive).

Struktura katalogu data/bank-brand-phishing-detection/gdrive-logosense/

gdrive-logosense/
├── SVM_imageset/               # Wytrenowane modele SVM per marka
│   ├── Bank of America/
│   │   ├── Positive/           # 18 pozytywnych przykładów logo (HOG features)
│   │   ├── Negative/           # 54 negatywne przykłady
│   │   └── svm_model_cluster0.pkl   # Wytrenowany model SVM
│   ├── Chase Personal Banking/ # 18 pos / 54 neg
│   ├── DHL Airways, Inc/       # 18 pos / 54 neg
│   ├── Office365/              # 10 pos / 30 neg
│   └── PayPal Inc/             # 18 pos / 54 neg
├── TestResult/                 # Pre-computed wyniki przy progach 0.91-0.97
│   ├── LogoSense_0.91_phish.txt
│   ├── LogoSense_0.91_benign.txt
│   ├── LogoSense_0.93_phish.txt   # ← 15,238 phishing + 30,649 benign ocen
│   ├── LogoSense_0.93_benign.txt
│   ├── LogoSense_0.95_phish.txt
│   ├── LogoSense_0.95_benign.txt
│   ├── LogoSense_0.97_phish.txt
│   └── LogoSense_0.97_benign.txt
├── Logosense_5brand.txt        # Lista 5 chronionych marek
├── README.md                   # Instrukcja uruchomienia
├── config.py
├── test.py                     # Ewaluacja detektora
├── train.py                    # Trening nowego SVM
└── utils.py

Modele SVM (5 marek)

MarkaPozytywneNegatywneModel
Bank of America1854svm_model_cluster0.pkl
Chase Personal Banking1854svm_model_cluster0.pkl
DHL Airways, Inc1854svm_model_cluster0.pkl
Office3651030svm_model_cluster0.pkl
PayPal Inc1854svm_model_cluster0.pkl

Modele oparte na HOG + SVM (Histogram of Oriented Gradients + Support Vector Machine). Metoda klasyczna, bez deep learning — szybka, interpretowalny baseline.

Wyniki testów (pre-computed)

TestResult zawiera wyniki detekcji przy 4 progach decyzyjnych (0.91, 0.93, 0.95, 0.97):

PrógZbiórLiczba ocenionych
0.91–0.97Phishing (Sampled_phish_5brand)~15,238 stron
0.91–0.97Benign (benign_sample_30k)30,649 stron

Format wyników: ścieżka_do_shot.png \t przewidywana_marka [score] \t czas_ms

Przykład:

Sampled_phish_5brand/PayPal Inc.+2020-07-04-17`32`34/shot.png  PayPal Inc  [1.12]  23.7
Sampled_phish_5brand/Bank of America+2019-07-28-23`25`55/shot.png  0  24.3

Gdzie 0 = nie rozpoznano żadnej marki (FN).

Co NIE jest w lokalnym pobraniu

Screenshoty stron phishingowych i benign muszą być pobrane osobno z Google Drive:

  • Sampled_phish_5brand (~1,979 stron z 5 marek, używane w papierze)
  • benign_sample_30k (30,649 stron benign)

Link do pobrania: https://drive.google.com/drive/folders/1YpKR_Nye4E11FCbPbePAAJG4UcqkIsfZ

Metoda paperu

Bozkir & Aydos (2020) propose HOG+SVM jako companion do istniejących systemów phishingowych (takich jak anty-phishingowe wtyczki przeglądarkowe). Pipeline:

  1. Ekstrakcja logo z HTML (bounding box z analizy layoutu)
  2. HOG features z logo crop
  3. SVM one-vs-rest per marka
  4. Próg decyzyjny (similarity score ≥ threshold)

Wyniki paperu (Sampled_phish_5brand, threshold=0.93):

  • Recall: ~91% (dokładna liczba zależy od marki)
  • Precision: ~95%
  • Czas: ~23ms per strona

Zastosowanie w projekcie

ModułZastosowanie
M2a ewaluacjaPre-computed results jako baseline HOG+SVM do porównania z CLIP
M2b Brand KB5 marek z Positive/ jako seed logo images
EXP-1LogoSENSE wyniki jako baseline w tabeli mAP logo detection

Rola w projekcie: LogoSENSE to baseline HOG+SVM dla FinPhishGuard M2. Nasz CLIP zero-shot powinien znacząco przewyższyć HOG+SVM przy jednoczesnej skalowalności do 150+ marek (vs. 5 w LogoSENSE).

Ograniczenia

  • Tylko 5 marek (Bank of America, Chase, DHL, Office365, PayPal) — bardzo wąski zakres
  • Metoda oparta na HOG/SVM — podatna na drobne zmiany wizualne (obrót, kolor, skala)
  • Brak benchmarku na atakach adwersaryjnych
  • Screenshoty z lat 2019-2020 — mogą nie odzwierciedlać aktualnych stylów phishingowych

Używany w publikacjach

  • Bozkir & Aydos (2020) — oryginalny paper definiujący dataset i metodę
  • Ji et al. (2024) — “A Large-Scale Evaluation of Phishing Detection Systems” — LogoSENSE jako jeden z ewaluowanych systemów
  • FinPhishGuard (praca własna) — baseline comparison dla M2a