LAION-2B

Metadane

  • Pełna nazwa: LAION-2B-en (English subset of LAION-5B)
  • Autorzy: Christoph Schuhmann, Romain Beaumont, Richard Vencu, et al.
  • Rok: 2022
  • Źródło: NeurIPS 2022 (arXiv:2210.08402)
  • Licencja: CC BY 4.0 (metadane i linki; obrazy — licencje oryginalne)
  • Dostępność: Publiczny (LAION.ai)

Charakterystika

  • Rozmiar: 2.32 miliardy par (obraz URL, tekst alt-text) — angielski podzbiór LAION-5B
  • Język: angielski (detekcja CLD3)
  • Źródło danych: Common Crawl (2021)
  • Filtrowanie: CLIP ViT-B/32 cosine similarity ≥ 0.28 + filtr NSFW + watermark score
  • Format: Parquet + img2dataset
  • Rozmiar pobrany: ~540 GB (szacunkowo, mixed resolutions)

Zastosowanie w projekcie

Główny zbiór do pretrainingu wielkich modeli OpenCLIP. Modele dostępne przez HuggingFace:

  • open_clip.create_model_and_transforms("ViT-L-14", pretrained="laion2b_s32b_b82k")
  • open_clip.create_model_and_transforms("ViT-H-14", pretrained="laion2b_s32b_b79k")
  • open_clip.create_model_and_transforms("ViT-G-14", pretrained="laion2b_s34b_b88k")

Planowany do użycia w EXP-2b: porównanie ViT-B/32 vs L/14 vs H/14 na logo matching.

Benchmarki

ModelImageNet Top-1COCO R@5
OpenCLIP ViT-L/1475.3%71.1%
OpenCLIP ViT-H/1478.0%73.4%
OpenCLIP ViT-G/1480.1%74.9%

Używany w publikacjach

  • cherti-openclip — Reproducible Scaling Laws for CLIP (2023)
  • Schuhmann et al. 2022 (arXiv:2210.08402) — LAION-5B paper
  • Stable Diffusion XL (Podell 2023) — text encoder
  • MetaCLIP (Xu 2023) — porównanie z LAION filteringiem

Linki