Streszczenie
SigLIP proponuje zamianę softmax contrastive loss (CLIP/InfoNCE) na binarny sigmoid cross-entropy operujący na każdej parze obraz-tekst niezależnie. Eliminuje to globalną normalizację po batchu — każda para jest klasyfikowana jako pasująca (+1) lub niepasująca (-1) bez uwzględniania innych elementów batchu. Konsekwencja: implementacja “chunked” na wielu urządzeniach bez kosztownego all-gather, co umożliwia trening z batch size do 1M par na małej liczbie chipów.
Kluczowe odkrycie: sigmoid loss przewyższa softmax przy małych rozmiarach batcha (< 16k), a optymalny batch size to 32k — dalsze skalowanie nie przynosi istotnych korzyści. SigLIP SO-400M (400M parametrów) osiąga 83.2% ImageNet zero-shot, bijąc EVA-CLIP E (5 miliardów parametrów, 82.0%) przy modelu 12x mniejszym. Modele trenowane z sigmoid loss wykazują znacznie wyższą odporność na szum danych treningowych niż softmax CLIP.
Wielojęzyczny wariant mSigLIP (100 języków, WebLI) osiąga 34.9% na XM3600 text-to-image retrieval (36 języków), o ponad 6pp lepiej niż LiT z modelem 4B parametrów. SigLIP stał się podstawą dla SigLIP 2 (Tschannen 2025) i jest szeroko używany w downstream systemach multimodalnych.
Kluczowe Wnioski
- Sigmoid loss > softmax przy batch size < 16k; optymalnie 32k (nie opłaca się skalować dalej)
- SigLIP SO-400M: 83.2% ImageNet zero-shot — bije EVA-CLIP E (5B param) przy 12x mniejszym modelu
- Bias term b=-10 krytyczny: inicjalizacja b=0 → spadek ~8pp na ImageNet (model nie może skorygować imbalance negatywów)
- Modele z sigmoid loss znacznie odporniejsze na szum danych treningowych (korupcja obrazów, shuffle tekstów)
- mSigLIP: 34.9% XM3600 retrieval w 36 językach (+6pp vs LiT ViT-e 4B z 28.5%)
- COCO R@1 I→T: SigLIP SO-400M 70.2% (vs CLIP B/16: 52.4%)
- Chunked implementation: memory O(b²) per-device zamiast O(|B|²) — umożliwia ogromne batch sizes
Metodologia
Sigmoid loss: L = -1/|B| * Σ_ij log(sigmoid(z_ij * (t·x_i·y_j + b))), gdzie z_ij = +1 dla par pasujących, -1 dla pozostałych. Temperatura t i bias b — oba parametry uczone. Inicjalizacja: t’=log(10), b=-10.
Chunked implementation: Teksty rotowane round-robin między D urządzeniami (collective permute). Każde urządzenie oblicza loss tylko dla lokalnego podzbioru obrazów i aktualnego chunku tekstów. Brak all-gather, brak materializacji pełnej macierzy |B|×|B|.
SigLiT: Locked-image Tuning — zamrożony visual encoder (precomputed embeddings), trenuje tylko text tower na LiT dataset. 4 TPUv4, 1-2 dni.
mSigLIP: Trening na WebLI (100 języków). Vocab bottleneck K=96 (zamiast pełnych 250k tokenów) — ~0.5pp strata jakości, 5x mniejszy embedding layer.
Główne Koncepcje
- Sigmoid loss — binarny CE na każdej parze niezależnie; brak globalnej normalizacji; symetryczny; single-pass; odporny na szum
- Bias term b — parametr w sigmoid loss inicjalizowany na -10; kompensuje imbalance pozytywów/negatywów (przy batch 16k = 268M negatywów na 16k pozytywów)
- Chunked implementation — efektywna implementacja multi-device bez all-gather; rotacja chunków round-robin
- SoViT-400M — shape-optimized ViT zoptymalizowany pod kątem stosunku compute/jakość
- mSigLIP — wielojęzyczny wariant z vocab bottleneck; 36 języków XM3600
Wyniki
| Model | ImageNet 0-shot | COCO I→T R@1 |
|---|---|---|
| CLIP B/16 | 68.3% | 52.4% |
| SigLIP B/16 | 76.2% | 57.1% |
| SigLIP L/16 | 80.5% | 63.4% |
| SigLIP SO-400M | 83.2% | 70.2% |
| EVA-CLIP E (5B) | 82.0% | — |
Przydatne Cytaty
- “The sigmoid loss is symmetric, requires just a single pass, and a typical implementation requires less memory than the softmax loss.” (p. 2)
- “we find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient.” (Abstract)
- “Models trained with sigmoid loss are increasingly robust to all kinds of added noise.” (p. 9)
Datasety
Brak nowych publicznych datasetów. Trening na WebLI i LiT (prywatne Google). Ewaluacja: ImageNet, COCO, XM3600, ObjectNet.
Powiązane Tematy
- SigLIP 2 (Tschannen 2025) — bezpośrednia kontynuacja: iBOT + NaFlex + 109 języków
- CLIP (Radford 2021) — softmax baseline
- OpenCLIP (Cherti 2023) — open-source CLIP z LAION
- EVA-CLIP (Sun 2023) — konkurencyjny kierunek skalowania
- LiT (Zhai 2022) — locked-image tuning, kontekst SigLiT
Notatki
Kluczowe dla projektu: odporność na szum (Fig. 7 w papierze) to analog odporności na adversarial logos. Sigmoid loss to mechanizm który naturalnie redukuje wpływ zaburzonych/zaszumionych obrazów — bezpośrednio aplikowalne do logo matching pod GAN attack. SigLIP SO-400M dostępny: google/siglip-so400m-patch14-384 HuggingFace.