Deformable DETR: Deformable Transformers for End-to-End Object Detection

Metadane

Autorzy: Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai
Rok: 2021
Źródło: ICLR 2021 (arXiv 2010.04159)
DOI: arXiv:2010.04159
Status: reference
Cytowania: 7,374
Kategoria: Computer Vision
Tagi: reference detr deformable-attention object-detection transformer iclr high-citations

Streszczenie

Deformable DETR rozwiązuje główną wadę oryginalnego DETR (Carion 2020): powolną konwergencję (~500 epok) i słabą wydajność dla małych obiektów. Kluczowa innowacja: deformable attention — zamiast full attention na wszystkich tokenach, każdy query uwzględnia tylko K=4 próbkowane punkty wokół reference point. To redukuje złożoność z O(HW)² do O(HWK).

Rezultat: 10× szybsza konwergencja (50 epok zamiast 500) przy wyższej dokładności (46.2 AP vs 43.3 AP DETR na COCO). Kluczowa właściwość dla logo detection: multi-scale deformable attention naturalnie radzi sobie z logo w różnych rozmiarach (małe favicon w nagłówku, duże logo w body).

Kluczowe Wnioski

Deformable attention: K=4 próbkowane punkty per query → O(HWK) zamiast O(H²W²)
Konwergencja: 50 epok vs 500 epok vanilla DETR — 10× szybciej
mAP COCO: 46.2 (Deformable DETR) vs 43.3 (DETR) vs 40.3 (Faster R-CNN)
Multi-scale: natural support dla różnych rozmiarów obiektów (FPN-like)
Memory: znacznie mniejszy niż vanilla DETR

Zastosowanie w projekcie

M2a Logo Localization — rekomendowany detektor:

# Deformable DETR fine-tuning na LogoSENSE
# github.com/fundamentalvision/Deformable-DETR
 
from models.deformable_detr import DeformableDETR
model = DeformableDETR(
    backbone='resnet50',
    num_classes=1,   # tylko "logo_region"
    num_queries=100,
    num_feature_levels=4  # multi-scale
)
# Fine-tune 50 epok na LogoSENSE (3,060 próbek)

Przewaga nad Faster R-CNN:

Nowocześniejsza architektura (ICLR 2021 vs NIPS 2015)
Lepsza dla małych logo (favicon, watermark)
End-to-end bez NMS

Przewaga Faster R-CNN:

Detectron2 — łatwa implementacja
PhishIntention używa Faster R-CNN → bezpośrednie porównanie

Decyzja: implementuj oba, raportuj który lepszy na LogoSENSE.

Powiązane Tematy

DETR (Carion 2020) — vanilla wersja, wolniejsza
ViT (Dosovitskiy 2021) — można użyć jako backbone zamiast ResNet-50
LogoSENSE (Bozkir 2020) — dataset do fine-tuningu

Notatki

7,374 cytowań — wystarczająco uznana żeby uzasadnić wybór. Użyj jako M2a backbone. GitHub: github.com/fundamentalvision/Deformable-DETR

Research

Przeglądaj

Deformable DETR: Deformable Transformers for End-to-End Object Detection

Deformable DETR: Deformable Transformers for End-to-End Object Detection

Metadane

Streszczenie

Kluczowe Wnioski

Zastosowanie w projekcie

Powiązane Tematy

Notatki