Deformable DETR: Deformable Transformers for End-to-End Object Detection

Metadane

Streszczenie

Deformable DETR rozwiązuje główną wadę oryginalnego DETR (Carion 2020): powolną konwergencję (~500 epok) i słabą wydajność dla małych obiektów. Kluczowa innowacja: deformable attention — zamiast full attention na wszystkich tokenach, każdy query uwzględnia tylko K=4 próbkowane punkty wokół reference point. To redukuje złożoność z O(HW)² do O(HWK).

Rezultat: 10× szybsza konwergencja (50 epok zamiast 500) przy wyższej dokładności (46.2 AP vs 43.3 AP DETR na COCO). Kluczowa właściwość dla logo detection: multi-scale deformable attention naturalnie radzi sobie z logo w różnych rozmiarach (małe favicon w nagłówku, duże logo w body).

Kluczowe Wnioski

  • Deformable attention: K=4 próbkowane punkty per query → O(HWK) zamiast O(H²W²)
  • Konwergencja: 50 epok vs 500 epok vanilla DETR — 10× szybciej
  • mAP COCO: 46.2 (Deformable DETR) vs 43.3 (DETR) vs 40.3 (Faster R-CNN)
  • Multi-scale: natural support dla różnych rozmiarów obiektów (FPN-like)
  • Memory: znacznie mniejszy niż vanilla DETR

Zastosowanie w projekcie

M2a Logo Localization — rekomendowany detektor:

# Deformable DETR fine-tuning na LogoSENSE
# github.com/fundamentalvision/Deformable-DETR
 
from models.deformable_detr import DeformableDETR
model = DeformableDETR(
    backbone='resnet50',
    num_classes=1,   # tylko "logo_region"
    num_queries=100,
    num_feature_levels=4  # multi-scale
)
# Fine-tune 50 epok na LogoSENSE (3,060 próbek)

Przewaga nad Faster R-CNN:

  • Nowocześniejsza architektura (ICLR 2021 vs NIPS 2015)
  • Lepsza dla małych logo (favicon, watermark)
  • End-to-end bez NMS

Przewaga Faster R-CNN:

  • Detectron2 — łatwa implementacja
  • PhishIntention używa Faster R-CNN → bezpośrednie porównanie

Decyzja: implementuj oba, raportuj który lepszy na LogoSENSE.

Powiązane Tematy

  • DETR (Carion 2020) — vanilla wersja, wolniejsza
  • ViT (Dosovitskiy 2021) — można użyć jako backbone zamiast ResNet-50
  • LogoSENSE (Bozkir 2020) — dataset do fine-tuningu

Notatki

7,374 cytowań — wystarczająco uznana żeby uzasadnić wybór. Użyj jako M2a backbone. GitHub: github.com/fundamentalvision/Deformable-DETR

Elementów w folderze: 0.