Demystifying CLIP Data

Pobierz PDF

Streszczenie

MetaCLIP to otwarte odtworzenie procesu kuracji danych WIT400M (WebImageText) użytego przez OpenAI do trenowania oryginalnego CLIP. Autorzy argumentują, że kluczem do sukcesu CLIP jest jakość danych, nie architektura modelu. Przez reverse-engineering procesu filtrowania OpenAI zidentyfikowali centralny mechanizm: query balancing — ograniczenie liczby par na pojęcie do progu t=20k, które wyrównuje rozkład i eliminuje dominację częstych, nieinformatywnych terminów.

Pipeline MetaCLIP: (1) budowa metadanych ~500k wpisów (WordNet synsets, unigramy i bigramy Wikipedii); (2) substring matching w puli 1.6B par CommonCrawl — eliminuje ~50% niskiej jakości danych; (3) indeksowanie odwrotne: pojęcie → lista tekstów; (4) Bernoulli sampling z progiem t=20k. Całość open-source na GitHub.

Wyniki: MetaCLIP-400M konsekwentnie bije CLIP WIT400M i LAION-400M na wszystkich rozmiarach ViT i 26 benchmarkach. Zbalansowane 400M par = 65.5% ImageNet zero-shot (vs LAION-400M: 60.0%, CLIP WIT: 63.4%). Wniosek odwrotny do intuicji: niezbalansowane 1.6B par (4x więcej danych) osiąga tylko 61.9% — mniejszy, lepszy dataset wygrywa.

Kluczowe Wnioski

Sukces CLIP = jakość danych, nie architektura: “the main ingredient to the success of CLIP is its data”
Query balancing (t=20k) krytyczny: niezbalansowane 1.6B par = 61.9% vs zbalansowane 400M = 65.5% ImageNet
Tylko 16k pojęć (3.2%) ma > 20k dopasowań, ale odpowiadają za 94.5% wszystkich dopasowań — skrajna long-tail
114k z 500k pojęć nie ma żadnych dopasowań w CommonCrawl
MetaCLIP-400M > CLIP WIT400M: ViT-B/32 +2.1pp, ViT-B/16 +2.5pp, ViT-L/14 +0.7pp
Skalowanie: MetaCLIP 2.5B + ViT-bigG = 82.1% ImageNet zero-shot (SOTA 2023)
Ludzka ewaluacja (p<0.001): zbalansowane dane lepsze jakościowo we wszystkich 3 wymiarach

Metodologia

Krok 1 — Metadane (~500k wpisów): WordNet synsets (86,654) + Wikipedia unigramy (251,465, min. 100 wystąpień) + bigramy PMI (100,646) + tytuły artykułów (61,235).

Krok 2 — Substring matching: Filtrowanie pary jeśli tekst zawiera jakikolwiek wpis z metadanych. Eliminuje ~50% puli surowej.

Krok 3 — Inverted index: Mapowanie pojęcie → lista pasujących tekstów. Ujawnia rozkład long-tail.

Krok 4 — Query balancing (t=20k): Dla pojęć z count < t: prob=1 (zachowaj wszystko). Dla count > t: prob=t/count (Bernoulli sampling). Niezależne próbkowanie per para — skalowalność bez pełnego indeksu.

Główne Koncepcje

Query balancing — Bernoulli sampling z progiem t ograniczającym dominację częstych terminów; kluczowy mechanizm jakości danych
WIT400M — prywatny dataset OpenAI użyty do CLIP; MetaCLIP jest jego otwartą reimplementacją
Long-tail distribution — 3.2% pojęć = 94.5% wszystkich dopasowań; balansowanie wyrównuje
Substring matching — filtr jakości: para zachowana tylko jeśli tekst zawiera semantyczny wpis z metadanych

Wyniki

Model	CLIP WIT400M	LAION-400M	MetaCLIP-400M
ViT-B/32	63.4%	60.0%	65.5%
ViT-B/16	68.3%	67.0%	70.8%
ViT-L/14	75.5%	72.7%	76.2%

MetaCLIP 2.5B ViT-bigG: 82.1% ImageNet zero-shot.

Przydatne Cytaty

“The main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective.” (Abstract)
“Surprisingly, training on 4x more data significantly hurts the accuracy on ImageNet (61.9 vs 65.5).” (Section 4.2)
“Only 16k entries had counts higher than 20k, accounting for 94.5% of the total counts of all entries.” (Section 3.3)

Datasety

MetaCLIP-400M — 400M par z CommonCrawl Pool 1 (15 snapshotów), t=20k
MetaCLIP-1B — 1B par z CommonCrawl Pool 2 (90 snapshotów), t=20k

Powiązane Tematy

CLIP (Radford 2021) — oryginalny model, MetaCLIP odtwarza jego dane
OpenCLIP (Cherti 2023) — open-source CLIP z LAION; MetaCLIP bije LAION przy tym samym rozmiarze
DataComp (Gadre 2023) — alternatywna metodologia kuracji; MetaCLIP wygrywa na DataComp benchmark
ALIGN (Jia 2021) — early large-scale image-text bez kuracji
SigLIP (Zhai 2023) — alternatywna funkcja straty

Notatki

Kluczowe dla projektu: MetaCLIP to open-source zamiennik CLIP z lepszą jakością danych. Checkpoint MetaCLIP ViT-B/16 dostępny przez OpenCLIP library: open_clip.create_model_and_transforms("ViT-B-16", pretrained="metaclip_400m"). Można fine-tunować na financial logos bez startu od zera.

Research

Przeglądaj