Streszczenie
SigLIP 2 to następna generacja modeli vision-language od Google DeepMind, rozszerzająca SigLIP (Zhai 2023) o cztery kluczowe ulepszenia: (1) caption bootstrapping z modeli językowych dla bogatszych opisów obrazów, (2) self-supervised losses (iBOT/DINO) dodane do sigmoid contrastive loss, (3) obsługa 109 języków (vs angielski w SigLIP), (4) NaFlex — natywna obsługa dowolnych rozdzielczości i aspect ratio bez przycinania.
Wyniki SigLIP 2 So400m: 85.0% ImageNet top-1 (vs CLIP ViT-L/14: 75.5%), RefCOCO +18.7 pp, Flickr30k I→T retrieval 96.6%. Model dostępny w rozmiarach B/16, L/16, So400m z tokenizacją NaFlex i standardową. Wszystkie checkpointy open-source przez HuggingFace.
Szczególnie istotne dla wykrywania phishingu: SigLIP 2 zachowuje lepsze cechy lokalizacyjne (dense features z iBOT) i rozumie wielojęzyczne nazwy marek. Phishing stron targetujących polskie banki (PKO BP, mBank) może używać polskich tytułów — SigLIP 2 obsługuje to natywnie.
Kluczowe Wnioski
- So400m: 85.0% ImageNet zero-shot top-1 — o 9.5pp lepiej niż CLIP ViT-L/14
- RefCOCO referring expression: +18.7 pp vs SigLIP — drastyczna poprawa lokalizacji
- NaFlex: natywna obsługa dowolnych aspect ratio (ważne dla phishing screenshots z mobile)
- 109 języków: wielojęzyczne brand names bez osobnych modeli
- iBOT self-supervised loss: lepsze dense features dla downstream detection/segmentation
- Open-source:
google/siglip-2-so400m-patch14-384na HuggingFace
Metodologia
Trening na wielojęzycznych danych captioning (Web-4B) z caption bootstrapping — zamiast surowego alt-textu używa opisów generowanych przez VLM. Łączy sigmoid contrastive loss (SigLIP) z iBOT self-supervised masking loss. NaFlex tokenizacja: obraz dzielony na patche z zachowaniem aspect ratio, wypełniany do pełnych sekwencji. Ewaluacja na 30+ benchmarkach zero-shot i downstream tasks.
Główne Koncepcje
- Sigmoid loss: zamiast softmax cross-entropy (CLIP) — każda para (i,j) niezależnie, bez normalizacji po batchu; skalowalność do ogromnych zbiorów
- iBOT (image BERT): self-supervised masked image modeling — model predykuje ukryte patche; dodaje cechy lokalizacyjne do global embeddings
- NaFlex: native aspect ratio flexible resolution — tokenizacja zachowująca proporcje obrazu; kluczowe dla phishing pages z niestandardowymi layoutami
- Caption bootstrapping: zastąpienie alt-text syntetycznymi opisami z VLM → bogatsze semantyczne opisy → lepsze text-image alignment
Wyniki
| Model | ImageNet | RefCOCO | Flickr I→T R@1 |
|---|---|---|---|
| CLIP ViT-L/14 | 75.5% | baseline | 88.0% |
| SigLIP So400m | 83.1% | — | 95.7% |
| SigLIP 2 B/16 | 81.4% | +12.1pp | 95.5% |
| SigLIP 2 L/16 | 83.8% | +16.2pp | 96.3% |
| SigLIP 2 So400m | 85.0% | +18.7pp | 96.6% |
Przydatne Cytaty
- “SigLIP 2 combines sigmoid loss with self-supervised objectives (iBOT), resulting in models that excel at both global semantic understanding and dense visual tasks.” (Abstract)
- “NaFlex tokenization preserves the native aspect ratio of input images, which is critical for downstream tasks involving non-square images.” (Section 3.2)
- “Our multilingual SigLIP 2 models support 109 languages, enabling brand-text alignment in non-English phishing scenarios.” (Section 4.3)
Datasety
- Brak nowych datasetów — ewaluacja na standardowych benchmarkach (ImageNet, COCO, Flickr30k, RefCOCO, XM3600)
Powiązane Tematy
- SigLIP (Zhai 2023) — poprzednia wersja, sigmoid loss baseline
- OpenCLIP (Cherti 2023) — LAION-trained CLIP warianty, porównywany w EXP-2b
- DINOv2 (Oquab 2023) — self-supervised alternatywa, dense features
- OWL-ViT (Minderer 2022) — open-vocabulary detection używający SigLIP jako backbone
- EVA-CLIP (Sun 2023) — alternatywny kierunek skalowania CLIP
Notatki
Najsilniejszy kandydat dla EXP-2b: So400m +9.5pp ImageNet vs CLIP L/14, +18.7pp lokalizacja. NaFlex szczególnie przydatny dla phishing screenshots w mobile layout. Wielojęzyczność coversuje polskie/europejskie banki bez dodatkowych modeli. Checkpoint: google/siglip-2-so400m-patch14-384 HuggingFace.