End-to-End Object Detection with Transformers (DETR)
Metadane
- Autorzy: Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
- Rok: 2020
- Źródło: ECCV 2020 (arXiv 2005.12872)
- DOI: arXiv:2005.12872
- Status: reference
- Cytowania: ~15,000
- Kategoria: Computer Vision
- Tagi: reference detr object-detection transformer set-prediction eccv high-citations logo-detection
Streszczenie
DETR (DEtection TRansformer) eliminuje ręcznie zaprojektowane komponenty tradycyjnych detektorów (anchory, NMS, RPN) zastępując je attention-based set prediction. CNN backbone ekstrahuje featury → Transformer encoder-decoder przetwarza sekwencję → N object queries równolegle predykują boxy i klasy. Hungarian algorithm zapewnia bijekcję predykcja-ground-truth podczas treningu.
Dla logo detection w phishingu: DETR naturalnie radzi sobie z logo w dowolnym miejscu strony, różnych rozmiarach, bez konieczności projektowania anchors pod logo-specific aspect ratios.
Kluczowe Wnioski
- Eliminuje NMS (Non-Maximum Suppression) i anchor design
- Równoległa predykcja obiektów → szybszy inference niż Faster R-CNN
- Globalna uwaga: każdy object query “widzi” całą stronę → lepsze dla małych logo w nagłówkach
- Trade-off: wolniejszy trening (konwergencja ~500 epok) vs szybki Faster R-CNN (~36 epok)
- Warianty szybsze: Deformable DETR (Zhu 2020), Sparse DETR (Roh 2021) — 10× szybsza konwergencja
Warianty do rozważenia
| Model | Konwergencja | AP | Zastosowanie |
|---|---|---|---|
| DETR-R50 | ~500 epok | 42.0 | baseline |
| Deformable DETR | ~50 epok | 46.2 | rekomendowany dla projektu |
| Sparse DETR | ~50 epok | 45.0 | jeśli potrzeba szybkości |
Zastosowanie w projekcie
M2a (Logo Localization) — Deformable DETR jako detector:
- Input: screenshot 1280×720
- Output: bounding boxes dla regionów logo z confidence > 0.5
- Fine-tuning na LogoSENSE (3,060 próbek z bounding box adnotacjami) — mały dataset → Deformable DETR lepiej niż vanilla DETR
- Klasy: [logo_region, favicon, brand_text_block]
Alternatywa: Faster R-CNN (jak PhishIntention) — bardziej sprawdzony w literaturze phishingowej, prostszy do porównania z baselines.
Powiązane Tematy
- ViT (Dosovitskiy 2021) — DETR używa CNN backbone, można zamienić na ViT
- LogoSENSE (Bozkir 2020) — dataset treningowy dla logo localization
- PhishIntention (Liu 2022) — używa Faster R-CNN (starszy podejście)
Notatki
Wybór między DETR a Faster R-CNN: DETR nowocześniejszy (lepsza ECCV venue citation), Faster R-CNN łatwiejszy do porównania z PhishIntention baseline. Jeśli liczymy na szybką implementację → Faster R-CNN (Detectron2). Jeśli chcemy mocniejszy “methodology” argument → Deformable DETR.