LAION-2B

Metadane

Pełna nazwa: LAION-2B-en (English subset of LAION-5B)
Autorzy: Christoph Schuhmann, Romain Beaumont, Richard Vencu, et al.
Rok: 2022
Źródło: NeurIPS 2022 (arXiv:2210.08402)
Licencja: CC BY 4.0 (metadane i linki; obrazy — licencje oryginalne)
Dostępność: Publiczny (LAION.ai)

Charakterystika

Rozmiar: 2.32 miliardy par (obraz URL, tekst alt-text) — angielski podzbiór LAION-5B
Język: angielski (detekcja CLD3)
Źródło danych: Common Crawl (2021)
Filtrowanie: CLIP ViT-B/32 cosine similarity ≥ 0.28 + filtr NSFW + watermark score
Format: Parquet + img2dataset
Rozmiar pobrany: ~540 GB (szacunkowo, mixed resolutions)

Zastosowanie w projekcie

Główny zbiór do pretrainingu wielkich modeli OpenCLIP. Modele dostępne przez HuggingFace:

open_clip.create_model_and_transforms("ViT-L-14", pretrained="laion2b_s32b_b82k")
open_clip.create_model_and_transforms("ViT-H-14", pretrained="laion2b_s32b_b79k")
open_clip.create_model_and_transforms("ViT-G-14", pretrained="laion2b_s34b_b88k")

Planowany do użycia w EXP-2b: porównanie ViT-B/32 vs L/14 vs H/14 na logo matching.

Benchmarki

Model	ImageNet Top-1	COCO R@5
OpenCLIP ViT-L/14	75.3%	71.1%
OpenCLIP ViT-H/14	78.0%	73.4%
OpenCLIP ViT-G/14	80.1%	74.9%

Używany w publikacjach

cherti-openclip — Reproducible Scaling Laws for CLIP (2023)
Schuhmann et al. 2022 (arXiv:2210.08402) — LAION-5B paper
Stable Diffusion XL (Podell 2023) — text encoder
MetaCLIP (Xu 2023) — porównanie z LAION filteringiem

Linki

Strona: https://laion.ai/blog/laion-5b/
arXiv (LAION-5B): https://arxiv.org/abs/2210.08402
HuggingFace: https://huggingface.co/datasets/laion/laion2B-en