LVD-142M

Metadane

  • Pełna nazwa: LVD-142M (Large-scale curated Visual Dataset, 142 Million images)
  • Autorzy: Maxime Oquab et al. (Meta AI)
  • Rok: 2023
  • Źródło: arXiv:2304.07193 (DINOv2 paper), TMLR 2024
  • Licencja: Prywatny dataset — niedostępny publicznie (Meta AI internal)
  • Dostępność: Niedostępny — metodologia opisana w papierze, ale zbiór nie jest udostępniony

Charakterystyka

  • Rozmiar: 142 miliony obrazów (bez par tekstowych — tylko obrazy)
  • Źródło: Web images (~1.2 miliarda obrazów, crawl z internetu)
  • Kuracja: k-NN retrieval względem zbiorów referencyjnych (ImageNet-22k + curated datasets)
    1. Wektory embeddingów DINO-v1 dla 1.2B obrazów
    2. k-NN wyszukiwanie: każdy obraz znalezieniu top-k sąsiadów w zbiorach referencyjnych
    3. Retencja top-k% obrazów z najwyższym podobieństwem
    4. Deduplikacja (copy detection)
  • Format: Wyłącznie obrazy (brak alt-text, brak par tekstowych) — przeznaczony dla self-supervised

Zastosowanie

Zbiór treningowy dla DINOv2 — self-supervised learning bez nadzoru. W przeciwieństwie do LAION/CLIP danych, LVD-142M nie zawiera tekstu. Jakość zbliżona do ImageNet-21k przy 10x większym rozmiarze. 142M > LAION-142M pod względem jakości dzięki k-NN kuracji.

Benchmarki (DINOv2 na LVD-142M, linear probe)

ModelImageNet LPADE20k seg (frozen)
ViT-B/1484.5%45.3% mIoU
ViT-L/1486.3%47.7% mIoU
ViT-g/1486.5%49.0% mIoU

Używany w publikacjach

  • oquab-dinov2 — DINOv2: Learning Robust Visual Features without Supervision (2023/2024)

Uwagi

Dataset niedostępny — metodologia opisana wystarczająco szczegółowo aby odtworzyć pipeline kuracji na własnych danych. Projekt k-NN kuracji można zastosować do budowy domeny-specyficznego zbioru logo do fine-tuningu w projekcie bank-brand-phishing-detection.