Deformable DETR: Deformable Transformers for End-to-End Object Detection
Metadane
- Autorzy: Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai
- Rok: 2021
- Źródło: ICLR 2021 (arXiv 2010.04159)
- DOI: arXiv:2010.04159
- Status: reference
- Cytowania: 7,374
- Kategoria: Computer Vision
- Tagi: reference detr deformable-attention object-detection transformer iclr high-citations
Streszczenie
Deformable DETR rozwiązuje główną wadę oryginalnego DETR (Carion 2020): powolną konwergencję (~500 epok) i słabą wydajność dla małych obiektów. Kluczowa innowacja: deformable attention — zamiast full attention na wszystkich tokenach, każdy query uwzględnia tylko K=4 próbkowane punkty wokół reference point. To redukuje złożoność z O(HW)² do O(HWK).
Rezultat: 10× szybsza konwergencja (50 epok zamiast 500) przy wyższej dokładności (46.2 AP vs 43.3 AP DETR na COCO). Kluczowa właściwość dla logo detection: multi-scale deformable attention naturalnie radzi sobie z logo w różnych rozmiarach (małe favicon w nagłówku, duże logo w body).
Kluczowe Wnioski
- Deformable attention: K=4 próbkowane punkty per query → O(HWK) zamiast O(H²W²)
- Konwergencja: 50 epok vs 500 epok vanilla DETR — 10× szybciej
- mAP COCO: 46.2 (Deformable DETR) vs 43.3 (DETR) vs 40.3 (Faster R-CNN)
- Multi-scale: natural support dla różnych rozmiarów obiektów (FPN-like)
- Memory: znacznie mniejszy niż vanilla DETR
Zastosowanie w projekcie
M2a Logo Localization — rekomendowany detektor:
# Deformable DETR fine-tuning na LogoSENSE
# github.com/fundamentalvision/Deformable-DETR
from models.deformable_detr import DeformableDETR
model = DeformableDETR(
backbone='resnet50',
num_classes=1, # tylko "logo_region"
num_queries=100,
num_feature_levels=4 # multi-scale
)
# Fine-tune 50 epok na LogoSENSE (3,060 próbek)Przewaga nad Faster R-CNN:
- Nowocześniejsza architektura (ICLR 2021 vs NIPS 2015)
- Lepsza dla małych logo (favicon, watermark)
- End-to-end bez NMS
Przewaga Faster R-CNN:
- Detectron2 — łatwa implementacja
- PhishIntention używa Faster R-CNN → bezpośrednie porównanie
Decyzja: implementuj oba, raportuj który lepszy na LogoSENSE.
Powiązane Tematy
- DETR (Carion 2020) — vanilla wersja, wolniejsza
- ViT (Dosovitskiy 2021) — można użyć jako backbone zamiast ResNet-50
- LogoSENSE (Bozkir 2020) — dataset do fine-tuningu
Notatki
7,374 cytowań — wystarczająco uznana żeby uzasadnić wybór. Użyj jako M2a backbone. GitHub: github.com/fundamentalvision/Deformable-DETR