LVD-142M

Metadane

Pełna nazwa: LVD-142M (Large-scale curated Visual Dataset, 142 Million images)
Autorzy: Maxime Oquab et al. (Meta AI)
Rok: 2023
Źródło: arXiv:2304.07193 (DINOv2 paper), TMLR 2024
Licencja: Prywatny dataset — niedostępny publicznie (Meta AI internal)
Dostępność: Niedostępny — metodologia opisana w papierze, ale zbiór nie jest udostępniony

Charakterystyka

Rozmiar: 142 miliony obrazów (bez par tekstowych — tylko obrazy)
Źródło: Web images (~1.2 miliarda obrazów, crawl z internetu)
Kuracja: k-NN retrieval względem zbiorów referencyjnych (ImageNet-22k + curated datasets)
1. Wektory embeddingów DINO-v1 dla 1.2B obrazów
2. k-NN wyszukiwanie: każdy obraz znalezieniu top-k sąsiadów w zbiorach referencyjnych
3. Retencja top-k% obrazów z najwyższym podobieństwem
4. Deduplikacja (copy detection)
Format: Wyłącznie obrazy (brak alt-text, brak par tekstowych) — przeznaczony dla self-supervised

Zastosowanie

Zbiór treningowy dla DINOv2 — self-supervised learning bez nadzoru. W przeciwieństwie do LAION/CLIP danych, LVD-142M nie zawiera tekstu. Jakość zbliżona do ImageNet-21k przy 10x większym rozmiarze. 142M > LAION-142M pod względem jakości dzięki k-NN kuracji.

Benchmarki (DINOv2 na LVD-142M, linear probe)

Model	ImageNet LP	ADE20k seg (frozen)
ViT-B/14	84.5%	45.3% mIoU
ViT-L/14	86.3%	47.7% mIoU
ViT-g/14	86.5%	49.0% mIoU

Używany w publikacjach

oquab-dinov2 — DINOv2: Learning Robust Visual Features without Supervision (2023/2024)

Uwagi

Dataset niedostępny — metodologia opisana wystarczająco szczegółowo aby odtworzyć pipeline kuracji na własnych danych. Projekt k-NN kuracji można zastosować do budowy domeny-specyficznego zbioru logo do fine-tuningu w projekcie bank-brand-phishing-detection.

Research

Przeglądaj

lvd-142m