Pobierz PDF

Streszczenie

MetaCLIP to otwarte odtworzenie procesu kuracji danych WIT400M (WebImageText) użytego przez OpenAI do trenowania oryginalnego CLIP. Autorzy argumentują, że kluczem do sukcesu CLIP jest jakość danych, nie architektura modelu. Przez reverse-engineering procesu filtrowania OpenAI zidentyfikowali centralny mechanizm: query balancing — ograniczenie liczby par na pojęcie do progu t=20k, które wyrównuje rozkład i eliminuje dominację częstych, nieinformatywnych terminów.

Pipeline MetaCLIP: (1) budowa metadanych ~500k wpisów (WordNet synsets, unigramy i bigramy Wikipedii); (2) substring matching w puli 1.6B par CommonCrawl — eliminuje ~50% niskiej jakości danych; (3) indeksowanie odwrotne: pojęcie → lista tekstów; (4) Bernoulli sampling z progiem t=20k. Całość open-source na GitHub.

Wyniki: MetaCLIP-400M konsekwentnie bije CLIP WIT400M i LAION-400M na wszystkich rozmiarach ViT i 26 benchmarkach. Zbalansowane 400M par = 65.5% ImageNet zero-shot (vs LAION-400M: 60.0%, CLIP WIT: 63.4%). Wniosek odwrotny do intuicji: niezbalansowane 1.6B par (4x więcej danych) osiąga tylko 61.9% — mniejszy, lepszy dataset wygrywa.

Kluczowe Wnioski

  • Sukces CLIP = jakość danych, nie architektura: “the main ingredient to the success of CLIP is its data”
  • Query balancing (t=20k) krytyczny: niezbalansowane 1.6B par = 61.9% vs zbalansowane 400M = 65.5% ImageNet
  • Tylko 16k pojęć (3.2%) ma > 20k dopasowań, ale odpowiadają za 94.5% wszystkich dopasowań — skrajna long-tail
  • 114k z 500k pojęć nie ma żadnych dopasowań w CommonCrawl
  • MetaCLIP-400M > CLIP WIT400M: ViT-B/32 +2.1pp, ViT-B/16 +2.5pp, ViT-L/14 +0.7pp
  • Skalowanie: MetaCLIP 2.5B + ViT-bigG = 82.1% ImageNet zero-shot (SOTA 2023)
  • Ludzka ewaluacja (p<0.001): zbalansowane dane lepsze jakościowo we wszystkich 3 wymiarach

Metodologia

Krok 1 — Metadane (~500k wpisów): WordNet synsets (86,654) + Wikipedia unigramy (251,465, min. 100 wystąpień) + bigramy PMI (100,646) + tytuły artykułów (61,235).

Krok 2 — Substring matching: Filtrowanie pary jeśli tekst zawiera jakikolwiek wpis z metadanych. Eliminuje ~50% puli surowej.

Krok 3 — Inverted index: Mapowanie pojęcie → lista pasujących tekstów. Ujawnia rozkład long-tail.

Krok 4 — Query balancing (t=20k): Dla pojęć z count < t: prob=1 (zachowaj wszystko). Dla count > t: prob=t/count (Bernoulli sampling). Niezależne próbkowanie per para — skalowalność bez pełnego indeksu.

Główne Koncepcje

  • Query balancing — Bernoulli sampling z progiem t ograniczającym dominację częstych terminów; kluczowy mechanizm jakości danych
  • WIT400M — prywatny dataset OpenAI użyty do CLIP; MetaCLIP jest jego otwartą reimplementacją
  • Long-tail distribution — 3.2% pojęć = 94.5% wszystkich dopasowań; balansowanie wyrównuje
  • Substring matching — filtr jakości: para zachowana tylko jeśli tekst zawiera semantyczny wpis z metadanych

Wyniki

ModelCLIP WIT400MLAION-400MMetaCLIP-400M
ViT-B/3263.4%60.0%65.5%
ViT-B/1668.3%67.0%70.8%
ViT-L/1475.5%72.7%76.2%

MetaCLIP 2.5B ViT-bigG: 82.1% ImageNet zero-shot.

Przydatne Cytaty

  • “The main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective.” (Abstract)
  • “Surprisingly, training on 4x more data significantly hurts the accuracy on ImageNet (61.9 vs 65.5).” (Section 4.2)
  • “Only 16k entries had counts higher than 20k, accounting for 94.5% of the total counts of all entries.” (Section 3.3)

Datasety

  • MetaCLIP-400M — 400M par z CommonCrawl Pool 1 (15 snapshotów), t=20k
  • MetaCLIP-1B — 1B par z CommonCrawl Pool 2 (90 snapshotów), t=20k

Powiązane Tematy

  • CLIP (Radford 2021) — oryginalny model, MetaCLIP odtwarza jego dane
  • OpenCLIP (Cherti 2023) — open-source CLIP z LAION; MetaCLIP bije LAION przy tym samym rozmiarze
  • DataComp (Gadre 2023) — alternatywna metodologia kuracji; MetaCLIP wygrywa na DataComp benchmark
  • ALIGN (Jia 2021) — early large-scale image-text bez kuracji
  • SigLIP (Zhai 2023) — alternatywna funkcja straty

Notatki

Kluczowe dla projektu: MetaCLIP to open-source zamiennik CLIP z lepszą jakością danych. Checkpoint MetaCLIP ViT-B/16 dostępny przez OpenCLIP library: open_clip.create_model_and_transforms("ViT-B-16", pretrained="metaclip_400m"). Można fine-tunować na financial logos bez startu od zera.

Elementów w folderze: 0.