SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Pobierz PDF

Streszczenie

SigLIP 2 to następna generacja modeli vision-language od Google DeepMind, rozszerzająca SigLIP (Zhai 2023) o cztery kluczowe ulepszenia: (1) caption bootstrapping z modeli językowych dla bogatszych opisów obrazów, (2) self-supervised losses (iBOT/DINO) dodane do sigmoid contrastive loss, (3) obsługa 109 języków (vs angielski w SigLIP), (4) NaFlex — natywna obsługa dowolnych rozdzielczości i aspect ratio bez przycinania.

Wyniki SigLIP 2 So400m: 85.0% ImageNet top-1 (vs CLIP ViT-L/14: 75.5%), RefCOCO +18.7 pp, Flickr30k I→T retrieval 96.6%. Model dostępny w rozmiarach B/16, L/16, So400m z tokenizacją NaFlex i standardową. Wszystkie checkpointy open-source przez HuggingFace.

Szczególnie istotne dla wykrywania phishingu: SigLIP 2 zachowuje lepsze cechy lokalizacyjne (dense features z iBOT) i rozumie wielojęzyczne nazwy marek. Phishing stron targetujących polskie banki (PKO BP, mBank) może używać polskich tytułów — SigLIP 2 obsługuje to natywnie.

Kluczowe Wnioski

So400m: 85.0% ImageNet zero-shot top-1 — o 9.5pp lepiej niż CLIP ViT-L/14
RefCOCO referring expression: +18.7 pp vs SigLIP — drastyczna poprawa lokalizacji
NaFlex: natywna obsługa dowolnych aspect ratio (ważne dla phishing screenshots z mobile)
109 języków: wielojęzyczne brand names bez osobnych modeli
iBOT self-supervised loss: lepsze dense features dla downstream detection/segmentation
Open-source: google/siglip-2-so400m-patch14-384 na HuggingFace

Metodologia

Trening na wielojęzycznych danych captioning (Web-4B) z caption bootstrapping — zamiast surowego alt-textu używa opisów generowanych przez VLM. Łączy sigmoid contrastive loss (SigLIP) z iBOT self-supervised masking loss. NaFlex tokenizacja: obraz dzielony na patche z zachowaniem aspect ratio, wypełniany do pełnych sekwencji. Ewaluacja na 30+ benchmarkach zero-shot i downstream tasks.

Główne Koncepcje

Sigmoid loss: zamiast softmax cross-entropy (CLIP) — każda para (i,j) niezależnie, bez normalizacji po batchu; skalowalność do ogromnych zbiorów
iBOT (image BERT): self-supervised masked image modeling — model predykuje ukryte patche; dodaje cechy lokalizacyjne do global embeddings
NaFlex: native aspect ratio flexible resolution — tokenizacja zachowująca proporcje obrazu; kluczowe dla phishing pages z niestandardowymi layoutami
Caption bootstrapping: zastąpienie alt-text syntetycznymi opisami z VLM → bogatsze semantyczne opisy → lepsze text-image alignment

Wyniki

Model	ImageNet	RefCOCO	Flickr I→T R@1
CLIP ViT-L/14	75.5%	baseline	88.0%
SigLIP So400m	83.1%	—	95.7%
SigLIP 2 B/16	81.4%	+12.1pp	95.5%
SigLIP 2 L/16	83.8%	+16.2pp	96.3%
SigLIP 2 So400m	85.0%	+18.7pp	96.6%

Przydatne Cytaty

“SigLIP 2 combines sigmoid loss with self-supervised objectives (iBOT), resulting in models that excel at both global semantic understanding and dense visual tasks.” (Abstract)
“NaFlex tokenization preserves the native aspect ratio of input images, which is critical for downstream tasks involving non-square images.” (Section 3.2)
“Our multilingual SigLIP 2 models support 109 languages, enabling brand-text alignment in non-English phishing scenarios.” (Section 4.3)

Datasety

Brak nowych datasetów — ewaluacja na standardowych benchmarkach (ImageNet, COCO, Flickr30k, RefCOCO, XM3600)

Powiązane Tematy

SigLIP (Zhai 2023) — poprzednia wersja, sigmoid loss baseline
OpenCLIP (Cherti 2023) — LAION-trained CLIP warianty, porównywany w EXP-2b
DINOv2 (Oquab 2023) — self-supervised alternatywa, dense features
OWL-ViT (Minderer 2022) — open-vocabulary detection używający SigLIP jako backbone
EVA-CLIP (Sun 2023) — alternatywny kierunek skalowania CLIP

Notatki

Najsilniejszy kandydat dla EXP-2b: So400m +9.5pp ImageNet vs CLIP L/14, +18.7pp lokalizacja. NaFlex szczególnie przydatny dla phishing screenshots w mobile layout. Wielojęzyczność coversuje polskie/europejskie banki bez dodatkowych modeli. Checkpoint: google/siglip-2-so400m-patch14-384 HuggingFace.

Research

Przeglądaj