LAION-400M

Metadane

  • Pełna nazwa: LAION-400M (Large-scale Artificial Intelligence Open Network — 400 Million)
  • Autorzy: Christoph Schuhmann, Richard Vencu, Romain Beaumont, et al.
  • Rok: 2021
  • Źródło: arXiv:2111.02114
  • Licencja: CC BY 4.0 (metadane i linki; obrazy — licencje oryginalne)
  • Dostępność: Publiczny (LAION.ai)

Charakterystyka

  • Rozmiar: 407 milionów par (obraz URL, tekst alt-text)
  • Język: angielski
  • Źródło danych: Common Crawl (crawl z internetu)
  • Filtrowanie: pary z CLIP ViT-B/32 cosine similarity ≥ 0.28 (CLIP-filtering)
  • Format: Parquet + img2dataset tool do pobierania obrazów
  • Rozmiar pobrany: ~240 GB (JPEG, mixed resolutions)

Zastosowanie w projekcie

Używany do pretrainingu OpenCLIP (Cherti 2023). Modele trenowane na LAION-400M:

  • OpenCLIP ViT-B/32: 62.9% ImageNet zero-shot
  • OpenCLIP ViT-L/14: 72.8% ImageNet zero-shot

Mniejszy niż LAION-2B — stosowany w ablacjach i mniejszych modelach (B/32, B/16).

Benchmarki

ModelImageNet Top-1COCO R@5
OpenCLIP ViT-B/3262.9%59.4%
OpenCLIP ViT-L/1472.8%68.4%

Używany w publikacjach

  • cherti-openclip — Reproducible Scaling Laws for CLIP (2023)
  • Schuhmann et al. 2021 (arXiv:2111.02114) — oryginalny paper datasetu
  • Stable Diffusion (Rombach 2022) — text encoder trenowany na LAION

Linki