- Pełna nazwa: MetaCLIP 400M (Metadata-Curated Language-Image Pretraining, 400M pairs)
- Autorzy: Hu Xu, Saining Xie et al. (Meta AI FAIR)
- Rok: 2023
- Źródło: arXiv:2309.16671, ICLR 2024
- Licencja: Dystrybucja danych (URLs + tekst) publiczna przez GitHub; obrazy — licencje oryginalne z CommonCrawl
- Dostępność: Częściowo publiczny (metadata + pipeline open-source; obrazy do pobrania przez img2dataset)
- GitHub: https://github.com/facebookresearch/MetaCLIP
Charakterystyka
- Rozmiar: 400 milionów par (obraz URL, tekst alt-text)
- Źródło: CommonCrawl Pool 1 — 15 snapshotów (styczeń 2021 – styczeń 2023)
- Pula surowa: 1.6B par przed filtrowaniem
- Filtrowanie: Substring matching z ~500k metadanych semantycznych (WordNet + Wikipedia) → eliminacja ~50% niskiej jakości
- Balansowanie: Query balancing t=20k — Bernoulli sampling na pojęcie, max 20k par na wpis
- Deduplikacja: 64-bit PCA hash; bez overlap z ImageNet/benchmarkami
Benchmarki (ImageNet zero-shot)
| Model | MetaCLIP-400M | CLIP WIT400M | LAION-400M |
|---|
| ViT-B/32 | 65.5% | 63.4% | 60.0% |
| ViT-B/16 | 70.8% | 68.3% | 67.0% |
| ViT-L/14 | 76.2% | 75.5% | 72.7% |
Używany w publikacjach
Linki