LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation

Pobierz PDF

Streszczenie

LLM2CLIP to metoda wzmacniania modeli CLIP przez zastąpienie text encodera dużym modelem językowym (LLM). Standardowe CLIP text encodery są ograniczone: max 77 tokenów, słaba obsługa długich opisów i języków innych niż angielski. LLM (LLaMA 3.1 8B) rozumie dowolnie długie opisy i otwarto-słownikowe koncepcje, ale jego embeddingi mają niską retrieval accuracy (5.2% vs CLIP-L 25.2%) — brak alignment z przestrzenią wizualną.

LLM2CLIP rozwiązuje to w dwóch etapach: (1) Caption Contrastive Fine-tuning (CC FT) — fine-tuning LLaMA LoRA na parach caption-obraz z supervised SimCSE, podnosząc retrieval accuracy LLM z 5.2% do 29.5%; (2) LLM2CLIP post fine-tuning — zamiana text encodera CLIP na CC-fine-tuned LLM z 4-warstwowym liniowym adapterem. Gradienty LLM zamrożone, embeddingi tekstowe prekomputowane → koszt treningu zbliżony do standardowego CLIP fine-tuningu (1.3h vs 17h z LoRA).

Wyniki: EVA02 L/14 + LLM2CLIP-60M: +12/+14.8 I2T/T2I retrieval avg na 5 benchmarkach. Nawet SigLIP-2 (40B par treningowych) zyskuje +1.0/+1.9 na krótkich tekstach i +14.8/+15.8 na długich opisach. Wielojęzyczność emergentna: Flickr-CN I2T 90.6% (vs 4.4% baseline) z treningu wyłącznie na danych angielskich.

Kluczowe Wnioski

Raw LLM text embeddingi mają niską retrieval accuracy (5.2%) — nie nadają się bezpośrednio do CLIP
CC fine-tuning LoRA podnosi LLM retrieval z 5.2% → 29.5% (kluczowy krok alignment)
EVA02 + LLM2CLIP: +12 I2T / +14.8 T2I retrieval avg na 5 benchmarkach (COCO, Flickr, Urban-1K, DOCCI, ShareGPT4V)
Długie opisy (Urban-1K, DOCCI): +14.8/+15.8 pp — dramatyczna przewaga nad standardowym CLIP
Wielojęzyczność emergentna: Flickr-CN 90.6% I2T z modelu trenowanego tylko po angielsku
XM3600 multilingual: +11.9/+15.2 vs baseline — bez danych wielojęzycznych!
LLaVA-1.5 z LLM2CLIP: poprawia >87.5% benchmarków multimodalnych
Koszt: embeddingi prekomputowane → trening ~1.3h (vs 17h z LoRA gradient-update)

Metodologia

Stage 1 — Caption Contrastive Fine-tuning (CC FT): LLaMA 3.1 8B + LoRA, trenowany z supervised SimCSE na parach (caption_A, caption_B) z DreamLIP. Cel: przekształcenie embeddingów LLM z “generatywnej” przestrzeni w “retrieval” przestrzeń. Czas: ~1h GPU.

Stage 2 — LLM2CLIP post fine-tuning: CLIP text encoder zastąpiony CC-fine-tuned LLM. Liniowy adapter (4 warstwy MLP) projektuje LLM output do CLIP embedding space. LLM zamrożony, tylko adapter + image encoder trenowane. Dane: CC3M + CC12M + YFCC15M + LAION (60M par). Czas: ~1.3h GPU.

Prekomputacja embeddingów: LLM przetwarza teksty offline raz, wyniki cachowane. Wyeliminowanie runtime LLM inference kosztem pamięci dyskowej.

Główne Koncepcje

CC FT (Caption Contrastive Fine-tuning) — supervised SimCSE na parach caption z DreamLIP; alignment LLM do przestrzeni retrieval
Supervised SimCSE — contrastive loss na parach podobnych zdań; kara za pull dla pozytywów, push dla negatywów
DreamLIP — zbiór danych CC3M/CC12M z wieloma generowanymi captionami per obraz
Adapter (MLP) — 4-warstwowy projektor LLM output → CLIP embedding space; jedyny trenowany komponent w Stage 2
Emergent multilingualism — model trenowany tylko na angielskim zyskuje wielojęzyczność przez LLM’s pre-training
Token limit CLIP — standardowy CLIP: max 77 tokenów; LLM2CLIP: bez ograniczeń

Wyniki

Metoda	COCO I2T	COCO T2I	Urban-1K I2T	Flickr-CN I2T
EVA02-L/14 baseline	79.6	62.8	45.2	4.4
+ LLM2CLIP-60M	91.6	77.6	60.0	90.6
SigLIP-2 baseline	87.1	74.5	64.3	—
+ LLM2CLIP	88.1	76.4	79.1	—

Przydatne Cytaty

“Raw LLM embeddings, without special training, achieve only 5.2% top-1 accuracy on caption retrieval — far below CLIP.” (Section 3)
“Multilingualism emerges naturally: our English-only trained model achieves 90.6% on Flickr-CN.” (Section 4.3)
“Since the LLM is frozen and text embeddings are pre-computed offline, the training cost is nearly identical to standard CLIP fine-tuning.” (Section 3.2)

Datasety

Brak nowych datasetów. Trening na DreamLIP (CC3M, CC12M, YFCC15M, LAION). Ewaluacja: COCO, Flickr30K, ShareGPT4V-1K, Urban-1K, DOCCI, ImageNet, Flickr-CN, XM3600, ADE20K.

Powiązane Tematy

CLIP (Radford 2021) — baseline text encoder zastępowany przez LLM
SigLIP 2 (Tschannen 2025) — LLM2CLIP ulepsza nawet ten bardzo silny model
EVA-CLIP (Sun 2023) — visual encoder używany z LLM2CLIP w najlepszych wynikach
LLaMA 3.1 (Meta 2024) — LLM używany jako text encoder
LLaVA-1.5 (Liu 2023) — downstream VLM poprawiony przez LLM2CLIP encoder

Notatki

Dla projektu: LLM2CLIP rozwiązuje problem 77-tokenowego limitu CLIP. Długie opisy phishingowych stron bankowych (“strona logowania PKO Bank Polski z logo w niebiesko-białych kolorach, formularz BLIK”) wymagają właśnie tej zdolności. Wielojęzyczność emergentna = obsługa polskich brand names bez multilingual trenowania. Checkpoint dostępny przez HuggingFace. Kandydat do EXP-2b.

Research

Przeglądaj