Sigmoid Loss for Language Image Pre-Training

Pobierz PDF

Streszczenie

SigLIP proponuje zamianę softmax contrastive loss (CLIP/InfoNCE) na binarny sigmoid cross-entropy operujący na każdej parze obraz-tekst niezależnie. Eliminuje to globalną normalizację po batchu — każda para jest klasyfikowana jako pasująca (+1) lub niepasująca (-1) bez uwzględniania innych elementów batchu. Konsekwencja: implementacja “chunked” na wielu urządzeniach bez kosztownego all-gather, co umożliwia trening z batch size do 1M par na małej liczbie chipów.

Kluczowe odkrycie: sigmoid loss przewyższa softmax przy małych rozmiarach batcha (< 16k), a optymalny batch size to 32k — dalsze skalowanie nie przynosi istotnych korzyści. SigLIP SO-400M (400M parametrów) osiąga 83.2% ImageNet zero-shot, bijąc EVA-CLIP E (5 miliardów parametrów, 82.0%) przy modelu 12x mniejszym. Modele trenowane z sigmoid loss wykazują znacznie wyższą odporność na szum danych treningowych niż softmax CLIP.

Wielojęzyczny wariant mSigLIP (100 języków, WebLI) osiąga 34.9% na XM3600 text-to-image retrieval (36 języków), o ponad 6pp lepiej niż LiT z modelem 4B parametrów. SigLIP stał się podstawą dla SigLIP 2 (Tschannen 2025) i jest szeroko używany w downstream systemach multimodalnych.

Kluczowe Wnioski

Sigmoid loss > softmax przy batch size < 16k; optymalnie 32k (nie opłaca się skalować dalej)
SigLIP SO-400M: 83.2% ImageNet zero-shot — bije EVA-CLIP E (5B param) przy 12x mniejszym modelu
Bias term b=-10 krytyczny: inicjalizacja b=0 → spadek ~8pp na ImageNet (model nie może skorygować imbalance negatywów)
Modele z sigmoid loss znacznie odporniejsze na szum danych treningowych (korupcja obrazów, shuffle tekstów)
mSigLIP: 34.9% XM3600 retrieval w 36 językach (+6pp vs LiT ViT-e 4B z 28.5%)
COCO R@1 I→T: SigLIP SO-400M 70.2% (vs CLIP B/16: 52.4%)
Chunked implementation: memory O(b²) per-device zamiast O(|B|²) — umożliwia ogromne batch sizes

Metodologia

Sigmoid loss: L = -1/|B| * Σ_ij log(sigmoid(z_ij * (t·x_i·y_j + b))), gdzie z_ij = +1 dla par pasujących, -1 dla pozostałych. Temperatura t i bias b — oba parametry uczone. Inicjalizacja: t’=log(10), b=-10.

Chunked implementation: Teksty rotowane round-robin między D urządzeniami (collective permute). Każde urządzenie oblicza loss tylko dla lokalnego podzbioru obrazów i aktualnego chunku tekstów. Brak all-gather, brak materializacji pełnej macierzy |B|×|B|.

SigLiT: Locked-image Tuning — zamrożony visual encoder (precomputed embeddings), trenuje tylko text tower na LiT dataset. 4 TPUv4, 1-2 dni.

mSigLIP: Trening na WebLI (100 języków). Vocab bottleneck K=96 (zamiast pełnych 250k tokenów) — ~0.5pp strata jakości, 5x mniejszy embedding layer.

Główne Koncepcje

Sigmoid loss — binarny CE na każdej parze niezależnie; brak globalnej normalizacji; symetryczny; single-pass; odporny na szum
Bias term b — parametr w sigmoid loss inicjalizowany na -10; kompensuje imbalance pozytywów/negatywów (przy batch 16k = 268M negatywów na 16k pozytywów)
Chunked implementation — efektywna implementacja multi-device bez all-gather; rotacja chunków round-robin
SoViT-400M — shape-optimized ViT zoptymalizowany pod kątem stosunku compute/jakość
mSigLIP — wielojęzyczny wariant z vocab bottleneck; 36 języków XM3600

Wyniki

Model	ImageNet 0-shot	COCO I→T R@1
CLIP B/16	68.3%	52.4%
SigLIP B/16	76.2%	57.1%
SigLIP L/16	80.5%	63.4%
SigLIP SO-400M	83.2%	70.2%
EVA-CLIP E (5B)	82.0%	—

Przydatne Cytaty

“The sigmoid loss is symmetric, requires just a single pass, and a typical implementation requires less memory than the softmax loss.” (p. 2)
“we find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient.” (Abstract)
“Models trained with sigmoid loss are increasingly robust to all kinds of added noise.” (p. 9)

Datasety

Brak nowych publicznych datasetów. Trening na WebLI i LiT (prywatne Google). Ewaluacja: ImageNet, COCO, XM3600, ObjectNet.

Powiązane Tematy

SigLIP 2 (Tschannen 2025) — bezpośrednia kontynuacja: iBOT + NaFlex + 109 języków
CLIP (Radford 2021) — softmax baseline
OpenCLIP (Cherti 2023) — open-source CLIP z LAION
EVA-CLIP (Sun 2023) — konkurencyjny kierunek skalowania
LiT (Zhai 2022) — locked-image tuning, kontekst SigLiT

Notatki

Kluczowe dla projektu: odporność na szum (Fig. 7 w papierze) to analog odporności na adversarial logos. Sigmoid loss to mechanizm który naturalnie redukuje wpływ zaburzonych/zaszumionych obrazów — bezpośrednio aplikowalne do logo matching pod GAN attack. SigLIP SO-400M dostępny: google/siglip-so400m-patch14-384 HuggingFace.

Research

Przeglądaj