Pobierz PDF

Streszczenie

SigLIP 2 to następna generacja modeli vision-language od Google DeepMind, rozszerzająca SigLIP (Zhai 2023) o cztery kluczowe ulepszenia: (1) caption bootstrapping z modeli językowych dla bogatszych opisów obrazów, (2) self-supervised losses (iBOT/DINO) dodane do sigmoid contrastive loss, (3) obsługa 109 języków (vs angielski w SigLIP), (4) NaFlex — natywna obsługa dowolnych rozdzielczości i aspect ratio bez przycinania.

Wyniki SigLIP 2 So400m: 85.0% ImageNet top-1 (vs CLIP ViT-L/14: 75.5%), RefCOCO +18.7 pp, Flickr30k I→T retrieval 96.6%. Model dostępny w rozmiarach B/16, L/16, So400m z tokenizacją NaFlex i standardową. Wszystkie checkpointy open-source przez HuggingFace.

Szczególnie istotne dla wykrywania phishingu: SigLIP 2 zachowuje lepsze cechy lokalizacyjne (dense features z iBOT) i rozumie wielojęzyczne nazwy marek. Phishing stron targetujących polskie banki (PKO BP, mBank) może używać polskich tytułów — SigLIP 2 obsługuje to natywnie.

Kluczowe Wnioski

  • So400m: 85.0% ImageNet zero-shot top-1 — o 9.5pp lepiej niż CLIP ViT-L/14
  • RefCOCO referring expression: +18.7 pp vs SigLIP — drastyczna poprawa lokalizacji
  • NaFlex: natywna obsługa dowolnych aspect ratio (ważne dla phishing screenshots z mobile)
  • 109 języków: wielojęzyczne brand names bez osobnych modeli
  • iBOT self-supervised loss: lepsze dense features dla downstream detection/segmentation
  • Open-source: google/siglip-2-so400m-patch14-384 na HuggingFace

Metodologia

Trening na wielojęzycznych danych captioning (Web-4B) z caption bootstrapping — zamiast surowego alt-textu używa opisów generowanych przez VLM. Łączy sigmoid contrastive loss (SigLIP) z iBOT self-supervised masking loss. NaFlex tokenizacja: obraz dzielony na patche z zachowaniem aspect ratio, wypełniany do pełnych sekwencji. Ewaluacja na 30+ benchmarkach zero-shot i downstream tasks.

Główne Koncepcje

  • Sigmoid loss: zamiast softmax cross-entropy (CLIP) — każda para (i,j) niezależnie, bez normalizacji po batchu; skalowalność do ogromnych zbiorów
  • iBOT (image BERT): self-supervised masked image modeling — model predykuje ukryte patche; dodaje cechy lokalizacyjne do global embeddings
  • NaFlex: native aspect ratio flexible resolution — tokenizacja zachowująca proporcje obrazu; kluczowe dla phishing pages z niestandardowymi layoutami
  • Caption bootstrapping: zastąpienie alt-text syntetycznymi opisami z VLM → bogatsze semantyczne opisy → lepsze text-image alignment

Wyniki

ModelImageNetRefCOCOFlickr I→T R@1
CLIP ViT-L/1475.5%baseline88.0%
SigLIP So400m83.1%95.7%
SigLIP 2 B/1681.4%+12.1pp95.5%
SigLIP 2 L/1683.8%+16.2pp96.3%
SigLIP 2 So400m85.0%+18.7pp96.6%

Przydatne Cytaty

  • “SigLIP 2 combines sigmoid loss with self-supervised objectives (iBOT), resulting in models that excel at both global semantic understanding and dense visual tasks.” (Abstract)
  • “NaFlex tokenization preserves the native aspect ratio of input images, which is critical for downstream tasks involving non-square images.” (Section 3.2)
  • “Our multilingual SigLIP 2 models support 109 languages, enabling brand-text alignment in non-English phishing scenarios.” (Section 4.3)

Datasety

  • Brak nowych datasetów — ewaluacja na standardowych benchmarkach (ImageNet, COCO, Flickr30k, RefCOCO, XM3600)

Powiązane Tematy

  • SigLIP (Zhai 2023) — poprzednia wersja, sigmoid loss baseline
  • OpenCLIP (Cherti 2023) — LAION-trained CLIP warianty, porównywany w EXP-2b
  • DINOv2 (Oquab 2023) — self-supervised alternatywa, dense features
  • OWL-ViT (Minderer 2022) — open-vocabulary detection używający SigLIP jako backbone
  • EVA-CLIP (Sun 2023) — alternatywny kierunek skalowania CLIP

Notatki

Najsilniejszy kandydat dla EXP-2b: So400m +9.5pp ImageNet vs CLIP L/14, +18.7pp lokalizacja. NaFlex szczególnie przydatny dla phishing screenshots w mobile layout. Wielojęzyczność coversuje polskie/europejskie banki bez dodatkowych modeli. Checkpoint: google/siglip-2-so400m-patch14-384 HuggingFace.

Elementów w folderze: 0.