End-to-End Object Detection with Transformers (DETR)

Metadane

Autorzy: Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
Rok: 2020
Źródło: ECCV 2020 (arXiv 2005.12872)
DOI: arXiv:2005.12872
Status: reference
Cytowania: ~15,000
Kategoria: Computer Vision
Tagi: reference detr object-detection transformer set-prediction eccv high-citations logo-detection

Streszczenie

DETR (DEtection TRansformer) eliminuje ręcznie zaprojektowane komponenty tradycyjnych detektorów (anchory, NMS, RPN) zastępując je attention-based set prediction. CNN backbone ekstrahuje featury → Transformer encoder-decoder przetwarza sekwencję → N object queries równolegle predykują boxy i klasy. Hungarian algorithm zapewnia bijekcję predykcja-ground-truth podczas treningu.

Dla logo detection w phishingu: DETR naturalnie radzi sobie z logo w dowolnym miejscu strony, różnych rozmiarach, bez konieczności projektowania anchors pod logo-specific aspect ratios.

Kluczowe Wnioski

Eliminuje NMS (Non-Maximum Suppression) i anchor design
Równoległa predykcja obiektów → szybszy inference niż Faster R-CNN
Globalna uwaga: każdy object query “widzi” całą stronę → lepsze dla małych logo w nagłówkach
Trade-off: wolniejszy trening (konwergencja ~500 epok) vs szybki Faster R-CNN (~36 epok)
Warianty szybsze: Deformable DETR (Zhu 2020), Sparse DETR (Roh 2021) — 10× szybsza konwergencja

Warianty do rozważenia

Model	Konwergencja	AP	Zastosowanie
DETR-R50	~500 epok	42.0	baseline
Deformable DETR	~50 epok	46.2	rekomendowany dla projektu
Sparse DETR	~50 epok	45.0	jeśli potrzeba szybkości

Zastosowanie w projekcie

M2a (Logo Localization) — Deformable DETR jako detector:

Input: screenshot 1280×720
Output: bounding boxes dla regionów logo z confidence > 0.5
Fine-tuning na LogoSENSE (3,060 próbek z bounding box adnotacjami) — mały dataset → Deformable DETR lepiej niż vanilla DETR
Klasy: [logo_region, favicon, brand_text_block]

Alternatywa: Faster R-CNN (jak PhishIntention) — bardziej sprawdzony w literaturze phishingowej, prostszy do porównania z baselines.

Powiązane Tematy

ViT (Dosovitskiy 2021) — DETR używa CNN backbone, można zamienić na ViT
LogoSENSE (Bozkir 2020) — dataset treningowy dla logo localization
PhishIntention (Liu 2022) — używa Faster R-CNN (starszy podejście)

Notatki

Wybór między DETR a Faster R-CNN: DETR nowocześniejszy (lepsza ECCV venue citation), Faster R-CNN łatwiejszy do porównania z PhishIntention baseline. Jeśli liczymy na szybką implementację → Faster R-CNN (Detectron2). Jeśli chcemy mocniejszy “methodology” argument → Deformable DETR.

Research

Przeglądaj

End-to-End Object Detection with Transformers (DETR)

End-to-End Object Detection with Transformers (DETR)

Metadane

Streszczenie

Kluczowe Wnioski

Warianty do rozważenia

Zastosowanie w projekcie

Powiązane Tematy

Notatki