MetaCLIP-400M

Metadane

Pełna nazwa: MetaCLIP 400M (Metadata-Curated Language-Image Pretraining, 400M pairs)
Autorzy: Hu Xu, Saining Xie et al. (Meta AI FAIR)
Rok: 2023
Źródło: arXiv:2309.16671, ICLR 2024
Licencja: Dystrybucja danych (URLs + tekst) publiczna przez GitHub; obrazy — licencje oryginalne z CommonCrawl
Dostępność: Częściowo publiczny (metadata + pipeline open-source; obrazy do pobrania przez img2dataset)
GitHub: https://github.com/facebookresearch/MetaCLIP

Rozmiar: 400 milionów par (obraz URL, tekst alt-text)
Źródło: CommonCrawl Pool 1 — 15 snapshotów (styczeń 2021 – styczeń 2023)
Pula surowa: 1.6B par przed filtrowaniem
Filtrowanie: Substring matching z ~500k metadanych semantycznych (WordNet + Wikipedia) → eliminacja ~50% niskiej jakości
Balansowanie: Query balancing t=20k — Bernoulli sampling na pojęcie, max 20k par na wpis
Deduplikacja: 64-bit PCA hash; bez overlap z ImageNet/benchmarkami

Model	MetaCLIP-400M	CLIP WIT400M	LAION-400M
ViT-B/32	65.5%	63.4%	60.0%
ViT-B/16	70.8%	68.3%	67.0%
ViT-L/14	76.2%	75.5%	72.7%

GitHub (pipeline + distribution): https://github.com/facebookresearch/MetaCLIP
OpenCLIP checkpoint: open_clip.create_model_and_transforms("ViT-B-16", pretrained="metaclip_400m")