Streszczenie
LLM2CLIP to metoda wzmacniania modeli CLIP przez zastąpienie text encodera dużym modelem językowym (LLM). Standardowe CLIP text encodery są ograniczone: max 77 tokenów, słaba obsługa długich opisów i języków innych niż angielski. LLM (LLaMA 3.1 8B) rozumie dowolnie długie opisy i otwarto-słownikowe koncepcje, ale jego embeddingi mają niską retrieval accuracy (5.2% vs CLIP-L 25.2%) — brak alignment z przestrzenią wizualną.
LLM2CLIP rozwiązuje to w dwóch etapach: (1) Caption Contrastive Fine-tuning (CC FT) — fine-tuning LLaMA LoRA na parach caption-obraz z supervised SimCSE, podnosząc retrieval accuracy LLM z 5.2% do 29.5%; (2) LLM2CLIP post fine-tuning — zamiana text encodera CLIP na CC-fine-tuned LLM z 4-warstwowym liniowym adapterem. Gradienty LLM zamrożone, embeddingi tekstowe prekomputowane → koszt treningu zbliżony do standardowego CLIP fine-tuningu (1.3h vs 17h z LoRA).
Wyniki: EVA02 L/14 + LLM2CLIP-60M: +12/+14.8 I2T/T2I retrieval avg na 5 benchmarkach. Nawet SigLIP-2 (40B par treningowych) zyskuje +1.0/+1.9 na krótkich tekstach i +14.8/+15.8 na długich opisach. Wielojęzyczność emergentna: Flickr-CN I2T 90.6% (vs 4.4% baseline) z treningu wyłącznie na danych angielskich.
Kluczowe Wnioski
- Raw LLM text embeddingi mają niską retrieval accuracy (5.2%) — nie nadają się bezpośrednio do CLIP
- CC fine-tuning LoRA podnosi LLM retrieval z 5.2% → 29.5% (kluczowy krok alignment)
- EVA02 + LLM2CLIP: +12 I2T / +14.8 T2I retrieval avg na 5 benchmarkach (COCO, Flickr, Urban-1K, DOCCI, ShareGPT4V)
- Długie opisy (Urban-1K, DOCCI): +14.8/+15.8 pp — dramatyczna przewaga nad standardowym CLIP
- Wielojęzyczność emergentna: Flickr-CN 90.6% I2T z modelu trenowanego tylko po angielsku
- XM3600 multilingual: +11.9/+15.2 vs baseline — bez danych wielojęzycznych!
- LLaVA-1.5 z LLM2CLIP: poprawia >87.5% benchmarków multimodalnych
- Koszt: embeddingi prekomputowane → trening ~1.3h (vs 17h z LoRA gradient-update)
Metodologia
Stage 1 — Caption Contrastive Fine-tuning (CC FT): LLaMA 3.1 8B + LoRA, trenowany z supervised SimCSE na parach (caption_A, caption_B) z DreamLIP. Cel: przekształcenie embeddingów LLM z “generatywnej” przestrzeni w “retrieval” przestrzeń. Czas: ~1h GPU.
Stage 2 — LLM2CLIP post fine-tuning: CLIP text encoder zastąpiony CC-fine-tuned LLM. Liniowy adapter (4 warstwy MLP) projektuje LLM output do CLIP embedding space. LLM zamrożony, tylko adapter + image encoder trenowane. Dane: CC3M + CC12M + YFCC15M + LAION (60M par). Czas: ~1.3h GPU.
Prekomputacja embeddingów: LLM przetwarza teksty offline raz, wyniki cachowane. Wyeliminowanie runtime LLM inference kosztem pamięci dyskowej.
Główne Koncepcje
- CC FT (Caption Contrastive Fine-tuning) — supervised SimCSE na parach caption z DreamLIP; alignment LLM do przestrzeni retrieval
- Supervised SimCSE — contrastive loss na parach podobnych zdań; kara za pull dla pozytywów, push dla negatywów
- DreamLIP — zbiór danych CC3M/CC12M z wieloma generowanymi captionami per obraz
- Adapter (MLP) — 4-warstwowy projektor LLM output → CLIP embedding space; jedyny trenowany komponent w Stage 2
- Emergent multilingualism — model trenowany tylko na angielskim zyskuje wielojęzyczność przez LLM’s pre-training
- Token limit CLIP — standardowy CLIP: max 77 tokenów; LLM2CLIP: bez ograniczeń
Wyniki
| Metoda | COCO I2T | COCO T2I | Urban-1K I2T | Flickr-CN I2T |
|---|---|---|---|---|
| EVA02-L/14 baseline | 79.6 | 62.8 | 45.2 | 4.4 |
| + LLM2CLIP-60M | 91.6 | 77.6 | 60.0 | 90.6 |
| SigLIP-2 baseline | 87.1 | 74.5 | 64.3 | — |
| + LLM2CLIP | 88.1 | 76.4 | 79.1 | — |
Przydatne Cytaty
- “Raw LLM embeddings, without special training, achieve only 5.2% top-1 accuracy on caption retrieval — far below CLIP.” (Section 3)
- “Multilingualism emerges naturally: our English-only trained model achieves 90.6% on Flickr-CN.” (Section 4.3)
- “Since the LLM is frozen and text embeddings are pre-computed offline, the training cost is nearly identical to standard CLIP fine-tuning.” (Section 3.2)
Datasety
Brak nowych datasetów. Trening na DreamLIP (CC3M, CC12M, YFCC15M, LAION). Ewaluacja: COCO, Flickr30K, ShareGPT4V-1K, Urban-1K, DOCCI, ImageNet, Flickr-CN, XM3600, ADE20K.
Powiązane Tematy
- CLIP (Radford 2021) — baseline text encoder zastępowany przez LLM
- SigLIP 2 (Tschannen 2025) — LLM2CLIP ulepsza nawet ten bardzo silny model
- EVA-CLIP (Sun 2023) — visual encoder używany z LLM2CLIP w najlepszych wynikach
- LLaMA 3.1 (Meta 2024) — LLM używany jako text encoder
- LLaVA-1.5 (Liu 2023) — downstream VLM poprawiony przez LLM2CLIP encoder
Notatki
Dla projektu: LLM2CLIP rozwiązuje problem 77-tokenowego limitu CLIP. Długie opisy phishingowych stron bankowych (“strona logowania PKO Bank Polski z logo w niebiesko-białych kolorach, formularz BLIK”) wymagają właśnie tej zdolności. Wielojęzyczność emergentna = obsługa polskich brand names bez multilingual trenowania. Checkpoint dostępny przez HuggingFace. Kandydat do EXP-2b.