LogoSENSE: A Companion HOG Based Logo Detection Scheme for Phishing Web Page and E-mail Brand Recognition

Metadane

Streszczenie

LogoSENSE to system detekcji logo na stronach phishingowych i w emailach phishingowych oparty na HOG (Histogram of Oriented Gradients) + SVM. Kluczowy wkład to publicznie dostępny dataset logo — 3,060 próbek treningowych i 1,979 próbek testowych (phishing + legalnych) z adnotacjami bounding box.

Praca wypełnia lukę w dostępnych zbiorach danych do trenowania detektorów logo dla phishingu. HOG+SVM osiąga 94.3% accuracy w detekcji logo, a całościowe rozpoznawanie marki 91.8%. Dataset jest nadal używany jako benchmark w nowszych pracach.

Kluczowe Wnioski

  • Publiczny dataset: 3,060 train + 1,979 test screenshotów z bounding box adnotacjami logo
  • 94.3% accuracy detekcji logo (HOG + SVM)
  • 91.8% brand recognition accuracy
  • Działa zarówno na stronach phishingowych jak i emailach
  • 71 cytowań — uznana praca w domenie

Metodologia

  • Logo detection: HOG features + SVM classifier (sliding window)
  • Brand recognition: template matching + histogram comparison po detekcji logo
  • Dataset: zebrane strony phishingowe (PhishTank) + legalnych stron top marek
  • Adnotacje: manualne bounding box na wszystkich 5,039 obrazach

Główne Koncepcje

  • HOG (Histogram of Oriented Gradients): klasyczny descriptor wizualny do detekcji obiektów
  • Logo-centric phishing detection: wykrywanie phishingu przez identyfikację i weryfikację logo
  • Companion scheme: system uzupełniający istniejące URL-based detektory

Wyniki

MetrykaWartość
Logo detection accuracy94.3%
Brand recognition accuracy91.8%
Dataset train size3,060 screenshotów
Dataset test size1,979 screenshotów

Uwaga: HOG+SVM jako baseline — nowsze systemy (VisualPhishNet CNN, PhishIntention Faster R-CNN) osiągają lepsze wyniki, ale LogoSENSE dataset pozostaje cennym zasobem do ewaluacji.

Przydatne Cytaty

  • “LogoSENSE dataset provides bounding box annotations for logo regions, enabling training of modern object detectors”
  • “The companion scheme is designed to work alongside existing phishing detection systems”

Datasety

LogoSENSE Dataset — kluczowy dla naszego projektu:

  • 3,060 + 1,979 screenshotów z adnotacjami bounding box logo
  • Dostępny publicznie: https://github.com/AhmetSalihBozkir/LogoSENSE (TBC, weryfikować)
  • Kategorie: phishing + legitimate pages z logo różnych marek
  • Format: screenshoty (PNG/JPG) + CSV z bounding box koordynatami

Powiązane wpisy:

  • datasets/ — do stworzenia: logosense-2020.md

Powiązane Tematy

  • VisualPhishNet (Abdelnabi 2020) — CNN alternative trained on similar data
  • PhishIntention (Liu 2022) — Faster R-CNN używa podobnych bounding box annotations
  • Ji & Kim 2025 — nowy benchmark dataset (19,131 stron, bez bounding box)
  • Lee 2023 — adversarial logos testowane m.in. na logo detectorach

Notatki

Kluczowy: dataset z adnotacjami bounding box — można użyć do trenowania naszego adversarially-hardened logo detectora (moduł wizualny BP-1). Sprawdź dostępność na GitHub.

Elementów w folderze: 0.