Pobierz PDF

Streszczenie

SigLIP proponuje zamianę softmax contrastive loss (CLIP/InfoNCE) na binarny sigmoid cross-entropy operujący na każdej parze obraz-tekst niezależnie. Eliminuje to globalną normalizację po batchu — każda para jest klasyfikowana jako pasująca (+1) lub niepasująca (-1) bez uwzględniania innych elementów batchu. Konsekwencja: implementacja “chunked” na wielu urządzeniach bez kosztownego all-gather, co umożliwia trening z batch size do 1M par na małej liczbie chipów.

Kluczowe odkrycie: sigmoid loss przewyższa softmax przy małych rozmiarach batcha (< 16k), a optymalny batch size to 32k — dalsze skalowanie nie przynosi istotnych korzyści. SigLIP SO-400M (400M parametrów) osiąga 83.2% ImageNet zero-shot, bijąc EVA-CLIP E (5 miliardów parametrów, 82.0%) przy modelu 12x mniejszym. Modele trenowane z sigmoid loss wykazują znacznie wyższą odporność na szum danych treningowych niż softmax CLIP.

Wielojęzyczny wariant mSigLIP (100 języków, WebLI) osiąga 34.9% na XM3600 text-to-image retrieval (36 języków), o ponad 6pp lepiej niż LiT z modelem 4B parametrów. SigLIP stał się podstawą dla SigLIP 2 (Tschannen 2025) i jest szeroko używany w downstream systemach multimodalnych.

Kluczowe Wnioski

  • Sigmoid loss > softmax przy batch size < 16k; optymalnie 32k (nie opłaca się skalować dalej)
  • SigLIP SO-400M: 83.2% ImageNet zero-shot — bije EVA-CLIP E (5B param) przy 12x mniejszym modelu
  • Bias term b=-10 krytyczny: inicjalizacja b=0 → spadek ~8pp na ImageNet (model nie może skorygować imbalance negatywów)
  • Modele z sigmoid loss znacznie odporniejsze na szum danych treningowych (korupcja obrazów, shuffle tekstów)
  • mSigLIP: 34.9% XM3600 retrieval w 36 językach (+6pp vs LiT ViT-e 4B z 28.5%)
  • COCO R@1 I→T: SigLIP SO-400M 70.2% (vs CLIP B/16: 52.4%)
  • Chunked implementation: memory O(b²) per-device zamiast O(|B|²) — umożliwia ogromne batch sizes

Metodologia

Sigmoid loss: L = -1/|B| * Σ_ij log(sigmoid(z_ij * (t·x_i·y_j + b))), gdzie z_ij = +1 dla par pasujących, -1 dla pozostałych. Temperatura t i bias b — oba parametry uczone. Inicjalizacja: t’=log(10), b=-10.

Chunked implementation: Teksty rotowane round-robin między D urządzeniami (collective permute). Każde urządzenie oblicza loss tylko dla lokalnego podzbioru obrazów i aktualnego chunku tekstów. Brak all-gather, brak materializacji pełnej macierzy |B|×|B|.

SigLiT: Locked-image Tuning — zamrożony visual encoder (precomputed embeddings), trenuje tylko text tower na LiT dataset. 4 TPUv4, 1-2 dni.

mSigLIP: Trening na WebLI (100 języków). Vocab bottleneck K=96 (zamiast pełnych 250k tokenów) — ~0.5pp strata jakości, 5x mniejszy embedding layer.

Główne Koncepcje

  • Sigmoid loss — binarny CE na każdej parze niezależnie; brak globalnej normalizacji; symetryczny; single-pass; odporny na szum
  • Bias term b — parametr w sigmoid loss inicjalizowany na -10; kompensuje imbalance pozytywów/negatywów (przy batch 16k = 268M negatywów na 16k pozytywów)
  • Chunked implementation — efektywna implementacja multi-device bez all-gather; rotacja chunków round-robin
  • SoViT-400M — shape-optimized ViT zoptymalizowany pod kątem stosunku compute/jakość
  • mSigLIP — wielojęzyczny wariant z vocab bottleneck; 36 języków XM3600

Wyniki

ModelImageNet 0-shotCOCO I→T R@1
CLIP B/1668.3%52.4%
SigLIP B/1676.2%57.1%
SigLIP L/1680.5%63.4%
SigLIP SO-400M83.2%70.2%
EVA-CLIP E (5B)82.0%

Przydatne Cytaty

  • “The sigmoid loss is symmetric, requires just a single pass, and a typical implementation requires less memory than the softmax loss.” (p. 2)
  • “we find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient.” (Abstract)
  • “Models trained with sigmoid loss are increasingly robust to all kinds of added noise.” (p. 9)

Datasety

Brak nowych publicznych datasetów. Trening na WebLI i LiT (prywatne Google). Ewaluacja: ImageNet, COCO, XM3600, ObjectNet.

Powiązane Tematy

  • SigLIP 2 (Tschannen 2025) — bezpośrednia kontynuacja: iBOT + NaFlex + 109 języków
  • CLIP (Radford 2021) — softmax baseline
  • OpenCLIP (Cherti 2023) — open-source CLIP z LAION
  • EVA-CLIP (Sun 2023) — konkurencyjny kierunek skalowania
  • LiT (Zhai 2022) — locked-image tuning, kontekst SigLiT

Notatki

Kluczowe dla projektu: odporność na szum (Fig. 7 w papierze) to analog odporności na adversarial logos. Sigmoid loss to mechanizm który naturalnie redukuje wpływ zaburzonych/zaszumionych obrazów — bezpośrednio aplikowalne do logo matching pod GAN attack. SigLIP SO-400M dostępny: google/siglip-so400m-patch14-384 HuggingFace.

Elementów w folderze: 0.