LVD-142M
Metadane
- Pełna nazwa: LVD-142M (Large-scale curated Visual Dataset, 142 Million images)
- Autorzy: Maxime Oquab et al. (Meta AI)
- Rok: 2023
- Źródło: arXiv:2304.07193 (DINOv2 paper), TMLR 2024
- Licencja: Prywatny dataset — niedostępny publicznie (Meta AI internal)
- Dostępność: Niedostępny — metodologia opisana w papierze, ale zbiór nie jest udostępniony
Charakterystyka
- Rozmiar: 142 miliony obrazów (bez par tekstowych — tylko obrazy)
- Źródło: Web images (~1.2 miliarda obrazów, crawl z internetu)
- Kuracja: k-NN retrieval względem zbiorów referencyjnych (ImageNet-22k + curated datasets)
- Wektory embeddingów DINO-v1 dla 1.2B obrazów
- k-NN wyszukiwanie: każdy obraz znalezieniu top-k sąsiadów w zbiorach referencyjnych
- Retencja top-k% obrazów z najwyższym podobieństwem
- Deduplikacja (copy detection)
- Format: Wyłącznie obrazy (brak alt-text, brak par tekstowych) — przeznaczony dla self-supervised
Zastosowanie
Zbiór treningowy dla DINOv2 — self-supervised learning bez nadzoru. W przeciwieństwie do LAION/CLIP danych, LVD-142M nie zawiera tekstu. Jakość zbliżona do ImageNet-21k przy 10x większym rozmiarze. 142M > LAION-142M pod względem jakości dzięki k-NN kuracji.
Benchmarki (DINOv2 na LVD-142M, linear probe)
| Model | ImageNet LP | ADE20k seg (frozen) |
|---|---|---|
| ViT-B/14 | 84.5% | 45.3% mIoU |
| ViT-L/14 | 86.3% | 47.7% mIoU |
| ViT-g/14 | 86.5% | 49.0% mIoU |
Używany w publikacjach
- oquab-dinov2 — DINOv2: Learning Robust Visual Features without Supervision (2023/2024)
Uwagi
Dataset niedostępny — metodologia opisana wystarczająco szczegółowo aby odtworzyć pipeline kuracji na własnych danych. Projekt k-NN kuracji można zastosować do budowy domeny-specyficznego zbioru logo do fine-tuningu w projekcie bank-brand-phishing-detection.