LogoSENSE: A Companion HOG Based Logo Detection Scheme for Phishing Web Page and E-mail Brand Recognition
Metadane
- Autorzy: Ahmet Salih Bozkir, Murat Aydos
- Rok: 2020
- Źródło: Computers & Security (Elsevier), Vol. 95
- DOI: 10.1016/j.cose.2020.101855
- Status: to-read
- Cytowania: 71
- Kategoria: Security / Computer Vision
- Tagi: to-read phishing logo-detection hog svm dataset brand-recognition email-phishing web-phishing public-dataset
Streszczenie
LogoSENSE to system detekcji logo na stronach phishingowych i w emailach phishingowych oparty na HOG (Histogram of Oriented Gradients) + SVM. Kluczowy wkład to publicznie dostępny dataset logo — 3,060 próbek treningowych i 1,979 próbek testowych (phishing + legalnych) z adnotacjami bounding box.
Praca wypełnia lukę w dostępnych zbiorach danych do trenowania detektorów logo dla phishingu. HOG+SVM osiąga 94.3% accuracy w detekcji logo, a całościowe rozpoznawanie marki 91.8%. Dataset jest nadal używany jako benchmark w nowszych pracach.
Kluczowe Wnioski
- Publiczny dataset: 3,060 train + 1,979 test screenshotów z bounding box adnotacjami logo
- 94.3% accuracy detekcji logo (HOG + SVM)
- 91.8% brand recognition accuracy
- Działa zarówno na stronach phishingowych jak i emailach
- 71 cytowań — uznana praca w domenie
Metodologia
- Logo detection: HOG features + SVM classifier (sliding window)
- Brand recognition: template matching + histogram comparison po detekcji logo
- Dataset: zebrane strony phishingowe (PhishTank) + legalnych stron top marek
- Adnotacje: manualne bounding box na wszystkich 5,039 obrazach
Główne Koncepcje
- HOG (Histogram of Oriented Gradients): klasyczny descriptor wizualny do detekcji obiektów
- Logo-centric phishing detection: wykrywanie phishingu przez identyfikację i weryfikację logo
- Companion scheme: system uzupełniający istniejące URL-based detektory
Wyniki
| Metryka | Wartość |
|---|---|
| Logo detection accuracy | 94.3% |
| Brand recognition accuracy | 91.8% |
| Dataset train size | 3,060 screenshotów |
| Dataset test size | 1,979 screenshotów |
Uwaga: HOG+SVM jako baseline — nowsze systemy (VisualPhishNet CNN, PhishIntention Faster R-CNN) osiągają lepsze wyniki, ale LogoSENSE dataset pozostaje cennym zasobem do ewaluacji.
Przydatne Cytaty
- “LogoSENSE dataset provides bounding box annotations for logo regions, enabling training of modern object detectors”
- “The companion scheme is designed to work alongside existing phishing detection systems”
Datasety
LogoSENSE Dataset — kluczowy dla naszego projektu:
- 3,060 + 1,979 screenshotów z adnotacjami bounding box logo
- Dostępny publicznie: https://github.com/AhmetSalihBozkir/LogoSENSE (TBC, weryfikować)
- Kategorie: phishing + legitimate pages z logo różnych marek
- Format: screenshoty (PNG/JPG) + CSV z bounding box koordynatami
Powiązane wpisy:
datasets/— do stworzenia:logosense-2020.md
Powiązane Tematy
- VisualPhishNet (Abdelnabi 2020) — CNN alternative trained on similar data
- PhishIntention (Liu 2022) — Faster R-CNN używa podobnych bounding box annotations
- Ji & Kim 2025 — nowy benchmark dataset (19,131 stron, bez bounding box)
- Lee 2023 — adversarial logos testowane m.in. na logo detectorach
Notatki
Kluczowy: dataset z adnotacjami bounding box — można użyć do trenowania naszego adversarially-hardened logo detectora (moduł wizualny BP-1). Sprawdź dostępność na GitHub.