LogoSENSE — Logo Detection Benchmark for Phishing

Metadane

Autorzy: Ahmet Selman Bozkir, Murat Aydos
Rok: 2020
Źródło: Computers & Security, vol. 95, 101836 (Elsevier)
DOI: 10.1016/j.cose.2020.101836
GitHub: https://github.com/SamPlvs/Object-detection-via-HOG-SVM (bazowy kod)
Status: ✅ Pobrano lokalnie (model + kod, ~22 MB)
Licencja: Academic/research use
Kategoria: Security / Visual Phishing / Logo Detection / Benchmark

Zawartość lokalna

Plik ZIP zawiera tylko kod bazowego detektora + wytrenowane modele SVM (bez screenshotów stron — te są osobnym pobraniem z Google Drive).

Struktura katalogu `data/bank-brand-phishing-detection/gdrive-logosense/`

gdrive-logosense/
├── SVM_imageset/               # Wytrenowane modele SVM per marka
│   ├── Bank of America/
│   │   ├── Positive/           # 18 pozytywnych przykładów logo (HOG features)
│   │   ├── Negative/           # 54 negatywne przykłady
│   │   └── svm_model_cluster0.pkl   # Wytrenowany model SVM
│   ├── Chase Personal Banking/ # 18 pos / 54 neg
│   ├── DHL Airways, Inc/       # 18 pos / 54 neg
│   ├── Office365/              # 10 pos / 30 neg
│   └── PayPal Inc/             # 18 pos / 54 neg
├── TestResult/                 # Pre-computed wyniki przy progach 0.91-0.97
│   ├── LogoSense_0.91_phish.txt
│   ├── LogoSense_0.91_benign.txt
│   ├── LogoSense_0.93_phish.txt   # ← 15,238 phishing + 30,649 benign ocen
│   ├── LogoSense_0.93_benign.txt
│   ├── LogoSense_0.95_phish.txt
│   ├── LogoSense_0.95_benign.txt
│   ├── LogoSense_0.97_phish.txt
│   └── LogoSense_0.97_benign.txt
├── Logosense_5brand.txt        # Lista 5 chronionych marek
├── README.md                   # Instrukcja uruchomienia
├── config.py
├── test.py                     # Ewaluacja detektora
├── train.py                    # Trening nowego SVM
└── utils.py

Modele SVM (5 marek)

Marka	Pozytywne	Negatywne	Model
Bank of America	18	54	`svm_model_cluster0.pkl`
Chase Personal Banking	18	54	`svm_model_cluster0.pkl`
DHL Airways, Inc	18	54	`svm_model_cluster0.pkl`
Office365	10	30	`svm_model_cluster0.pkl`
PayPal Inc	18	54	`svm_model_cluster0.pkl`

Modele oparte na HOG + SVM (Histogram of Oriented Gradients + Support Vector Machine). Metoda klasyczna, bez deep learning — szybka, interpretowalny baseline.

Wyniki testów (pre-computed)

TestResult zawiera wyniki detekcji przy 4 progach decyzyjnych (0.91, 0.93, 0.95, 0.97):

Próg	Zbiór	Liczba ocenionych
0.91–0.97	Phishing (Sampled_phish_5brand)	~15,238 stron
0.91–0.97	Benign (benign_sample_30k)	30,649 stron

Format wyników: ścieżka_do_shot.png \t przewidywana_marka [score] \t czas_ms

Przykład:

Sampled_phish_5brand/PayPal Inc.+2020-07-04-17`32`34/shot.png  PayPal Inc  [1.12]  23.7
Sampled_phish_5brand/Bank of America+2019-07-28-23`25`55/shot.png  0  24.3

Gdzie 0 = nie rozpoznano żadnej marki (FN).

Co NIE jest w lokalnym pobraniu

Screenshoty stron phishingowych i benign muszą być pobrane osobno z Google Drive:

Sampled_phish_5brand (~1,979 stron z 5 marek, używane w papierze)
benign_sample_30k (30,649 stron benign)

Link do pobrania: https://drive.google.com/drive/folders/1YpKR_Nye4E11FCbPbePAAJG4UcqkIsfZ

Metoda paperu

Bozkir & Aydos (2020) propose HOG+SVM jako companion do istniejących systemów phishingowych (takich jak anty-phishingowe wtyczki przeglądarkowe). Pipeline:

Ekstrakcja logo z HTML (bounding box z analizy layoutu)
HOG features z logo crop
SVM one-vs-rest per marka
Próg decyzyjny (similarity score ≥ threshold)

Wyniki paperu (Sampled_phish_5brand, threshold=0.93):

Recall: ~91% (dokładna liczba zależy od marki)
Precision: ~95%
Czas: ~23ms per strona

Zastosowanie w projekcie

Moduł	Zastosowanie
M2a ewaluacja	Pre-computed results jako baseline HOG+SVM do porównania z CLIP
M2b Brand KB	5 marek z Positive/ jako seed logo images
EXP-1	LogoSENSE wyniki jako baseline w tabeli mAP logo detection

Rola w projekcie: LogoSENSE to baseline HOG+SVM dla FinPhishGuard M2. Nasz CLIP zero-shot powinien znacząco przewyższyć HOG+SVM przy jednoczesnej skalowalności do 150+ marek (vs. 5 w LogoSENSE).

Ograniczenia

Tylko 5 marek (Bank of America, Chase, DHL, Office365, PayPal) — bardzo wąski zakres
Metoda oparta na HOG/SVM — podatna na drobne zmiany wizualne (obrót, kolor, skala)
Brak benchmarku na atakach adwersaryjnych
Screenshoty z lat 2019-2020 — mogą nie odzwierciedlać aktualnych stylów phishingowych

Używany w publikacjach

Bozkir & Aydos (2020) — oryginalny paper definiujący dataset i metodę
Ji et al. (2024) — “A Large-Scale Evaluation of Phishing Detection Systems” — LogoSENSE jako jeden z ewaluowanych systemów
FinPhishGuard (praca własna) — baseline comparison dla M2a

Research

Przeglądaj

logosense

LogoSENSE — Logo Detection Benchmark for Phishing

Metadane

Zawartość lokalna

Struktura katalogu `data/bank-brand-phishing-detection/gdrive-logosense/`

Modele SVM (5 marek)

Wyniki testów (pre-computed)

Co NIE jest w lokalnym pobraniu

Metoda paperu

Zastosowanie w projekcie

Ograniczenia

Używany w publikacjach

Graf

Spis treści

Research

Przeglądaj

logosense

LogoSENSE — Logo Detection Benchmark for Phishing

Metadane

Zawartość lokalna

Struktura katalogu data/bank-brand-phishing-detection/gdrive-logosense/

Modele SVM (5 marek)

Wyniki testów (pre-computed)

Co NIE jest w lokalnym pobraniu

Metoda paperu

Zastosowanie w projekcie

Ograniczenia

Używany w publikacjach

Graf

Spis treści

Struktura katalogu `data/bank-brand-phishing-detection/gdrive-logosense/`