End-to-End Object Detection with Transformers (DETR)

Metadane

Streszczenie

DETR (DEtection TRansformer) eliminuje ręcznie zaprojektowane komponenty tradycyjnych detektorów (anchory, NMS, RPN) zastępując je attention-based set prediction. CNN backbone ekstrahuje featury → Transformer encoder-decoder przetwarza sekwencję → N object queries równolegle predykują boxy i klasy. Hungarian algorithm zapewnia bijekcję predykcja-ground-truth podczas treningu.

Dla logo detection w phishingu: DETR naturalnie radzi sobie z logo w dowolnym miejscu strony, różnych rozmiarach, bez konieczności projektowania anchors pod logo-specific aspect ratios.

Kluczowe Wnioski

  • Eliminuje NMS (Non-Maximum Suppression) i anchor design
  • Równoległa predykcja obiektów → szybszy inference niż Faster R-CNN
  • Globalna uwaga: każdy object query “widzi” całą stronę → lepsze dla małych logo w nagłówkach
  • Trade-off: wolniejszy trening (konwergencja ~500 epok) vs szybki Faster R-CNN (~36 epok)
  • Warianty szybsze: Deformable DETR (Zhu 2020), Sparse DETR (Roh 2021) — 10× szybsza konwergencja

Warianty do rozważenia

ModelKonwergencjaAPZastosowanie
DETR-R50~500 epok42.0baseline
Deformable DETR~50 epok46.2rekomendowany dla projektu
Sparse DETR~50 epok45.0jeśli potrzeba szybkości

Zastosowanie w projekcie

M2a (Logo Localization) — Deformable DETR jako detector:

  • Input: screenshot 1280×720
  • Output: bounding boxes dla regionów logo z confidence > 0.5
  • Fine-tuning na LogoSENSE (3,060 próbek z bounding box adnotacjami) — mały dataset → Deformable DETR lepiej niż vanilla DETR
  • Klasy: [logo_region, favicon, brand_text_block]

Alternatywa: Faster R-CNN (jak PhishIntention) — bardziej sprawdzony w literaturze phishingowej, prostszy do porównania z baselines.

Powiązane Tematy

  • ViT (Dosovitskiy 2021) — DETR używa CNN backbone, można zamienić na ViT
  • LogoSENSE (Bozkir 2020) — dataset treningowy dla logo localization
  • PhishIntention (Liu 2022) — używa Faster R-CNN (starszy podejście)

Notatki

Wybór między DETR a Faster R-CNN: DETR nowocześniejszy (lepsza ECCV venue citation), Faster R-CNN łatwiejszy do porównania z PhishIntention baseline. Jeśli liczymy na szybką implementację → Faster R-CNN (Detectron2). Jeśli chcemy mocniejszy “methodology” argument → Deformable DETR.

Elementów w folderze: 0.