DINOv2: Learning Robust Visual Features without Supervision

Pobierz PDF

Streszczenie

DINOv2 to system uczenia self-supervised dla Visual Transformers (ViT) od Meta AI, który produkuje wysokiej jakości wizualne cechy bez nadzoru — bez jakichkolwiek etykiet ani tekstu. Łączy trzy komponenty: (1) DINO loss (self-distillation z momentum encoder), (2) iBOT loss (masked image modeling — predykcja ukrytych patchy), (3) KoLeo regularizer (zachowanie jednorodności rozkładu embeddingów w przestrzeni). Architektura: ViT-S/B/L/g, przy czym ViT-g/14 (~1B parametrów) to największy model.

Kluczowe odkrycie: DINOv2 ViT-g/14 osiąga 86.5% ImageNet-1k z zamrożonymi cechami (linear probe) — przewyższa modele trenowane z nadzorem. Na segmentacji ADE20k: 49.0% mIoU z zamrożonym backbonem, 54.0% z fine-tuningiem. Na depth estimation NYUd: 1.28 RMS (SOTA). Cechy DINOv2 działają jako universalny ekstraktor cech bez domenowego fine-tuningu.

Istotna innowacja: kuracja danych LVD-142M — 142M obrazów wyselekcjonowanych z 1.2B obrazów z internetu przez k-NN retrieval względem kuratowanych zbiorów referencyjnych (ImageNet, curated datasets). Ta strategia kuracji eliminuje artefakty z niesfiltrowanych zbiorów i jest kluczowa dla jakości modelu.

Kluczowe Wnioski

86.5% ImageNet linear probe z zamrożonymi cechami (ViT-g/14) — powyżej supervised ViT-B (84.0%)
ADE20k segmentacja: 49.0% mIoU frozen, 54.0% fine-tuned — SOTA lub bliskie SOTA
Depth estimation NYUd: 1.28 RMS — SOTA przy zamrożonym backbone
LVD-142M: 142M kuratowanych obrazów > 1.2B niefiltrowanych (jakość ≈ ImageNet-21k)
Cechy DINOv2 wykazują emergentne rozumienie: semantyczna segmentacja bez treningu na etykietach
ViT-g/14 patch size = 14px — wysoka rozdzielczość przestrzenna (lepsze dense features niż patch/32)
Dostępny open-source: facebook/dinov2-giant HuggingFace + torch.hub

Metodologia

DINO loss: Self-distillation — student ViT uczy się od teacher ViT (momentum encoder). Teacher dostaje pełny obraz, student — przycięte widoki (multi-crop). Centering + sharpening zapobiega kolapsowi modelu.

iBOT loss: Masked image modeling — losowo maskowane patchy w wejściu studenta; model predykuje ich soft labels generowane przez teacher. Dodaje lokalne, dense features do globalnych DINO embeddings.

KoLeo regularizer: Kara za skupianie embeddingów — maksymalizuje entropię rozkładu wektorów w batchu przez minimalizację logarytmu minimalnej odległości k-NN. Zapobiega kolapsowi do kilku klastrów.

LVD-142M data curation: 1. Zebranie 1.2B obrazów z internetu. 2. Encodowanie DINO-v1/k-NN retrieval względem zbiorów referencyjnych (ImageNet, curated datasets). 3. Retencja top-k% najbliższych sąsiadów. 4. Deduplikacja. Wynik: 142M obrazów o jakości zbliżonej do ImageNet-21k.

Główne Koncepcje

DINO — self-distillation with no labels; student uczy się od momentum teacher
iBOT — image BERT: masked image modeling; generuje dense, lokalizacyjne cechy
KoLeo — regularyzacja jednorodności rozkładu embeddingów w przestrzeni latentnej
LVD-142M — Large-scale curated dataset from web (142M images, Meta AI)
Dense features — przestrzenne cechy per-patch (nie tylko globalny CLS token); kluczowe dla detekcji i segmentacji
Linear probe — ewaluacja jakości zamrożonych cech przez liniowy klasyfikator; brak fine-tuningu

Wyniki

Model	ImageNet LP	ADE20k seg	NYUd depth
ViT-B/14	84.5%	45.3% mIoU	1.51 RMS
ViT-L/14	86.3%	47.7% mIoU	1.40 RMS
ViT-g/14	86.5%	49.0% mIoU	1.28 RMS

vs supervised ViT-B: 84.0% ImageNet; vs CLIP ViT-L: 76.5%; vs OpenCLIP ViT-H: 78.0%

Przydatne Cytaty

“We show that existing pretraining methods can produce such features if trained on enough curated data from diverse sources.” (Abstract)
“DINOv2 is trained on a dataset of 142M images curated from a large collection of uncurated data using a self-supervised retrieval pipeline.” (Section 3)
“Our features show strong emergent properties: they encode semantic information, spatial layout, and object properties.” (Section 5)

Datasety

LVD-142M — 142M kuratowanych obrazów (Meta AI, prywatny)
Ewaluacja: ImageNet-1k, ADE20k, NYUd, Pascal VOC, iNaturalist, Places205

Powiązane Tematy

DINO v1 (Caron 2021) — poprzednia wersja, bez iBOT
iBOT (Zhou 2021) — masked image modeling, integrowany w DINOv2
CLIP (Radford 2021) — alternatywa z text supervision; inne cechy (semantic vs visual)
SigLIP (Zhai 2023) — vision-language alternatywa z sigmoid loss
MAE (He 2022) — masked autoencoder, inna strategia self-supervised
OWL-ViT (Minderer 2022) — open-vocab detection używający DINOv2 cech

Notatki

DINOv2 jest alternatywą dla CLIP jako ekstraktor cech w M2b, ale bez text supervision — nie obsługuje zero-shot przez text prompt “logo of PayPal”. Zastosowanie: dense features z DINOv2 do logo lokalizacji (M2a), następnie CLIP/SigLIP do brand matching (M2b). Kombinacja DINOv2+CLIP może być mocniejsza niż samo CLIP. ViT-g/14: facebook/dinov2-giant HuggingFace.

Research

Przeglądaj