MetaCLIP-400M

Metadane

  • Pełna nazwa: MetaCLIP 400M (Metadata-Curated Language-Image Pretraining, 400M pairs)
  • Autorzy: Hu Xu, Saining Xie et al. (Meta AI FAIR)
  • Rok: 2023
  • Źródło: arXiv:2309.16671, ICLR 2024
  • Licencja: Dystrybucja danych (URLs + tekst) publiczna przez GitHub; obrazy — licencje oryginalne z CommonCrawl
  • Dostępność: Częściowo publiczny (metadata + pipeline open-source; obrazy do pobrania przez img2dataset)
  • GitHub: https://github.com/facebookresearch/MetaCLIP

Charakterystyka

  • Rozmiar: 400 milionów par (obraz URL, tekst alt-text)
  • Źródło: CommonCrawl Pool 1 — 15 snapshotów (styczeń 2021 – styczeń 2023)
  • Pula surowa: 1.6B par przed filtrowaniem
  • Filtrowanie: Substring matching z ~500k metadanych semantycznych (WordNet + Wikipedia) → eliminacja ~50% niskiej jakości
  • Balansowanie: Query balancing t=20k — Bernoulli sampling na pojęcie, max 20k par na wpis
  • Deduplikacja: 64-bit PCA hash; bez overlap z ImageNet/benchmarkami

Benchmarki (ImageNet zero-shot)

ModelMetaCLIP-400MCLIP WIT400MLAION-400M
ViT-B/3265.5%63.4%60.0%
ViT-B/1670.8%68.3%67.0%
ViT-L/1476.2%75.5%72.7%

Używany w publikacjach

Linki