LAION-400M

Metadane

Pełna nazwa: LAION-400M (Large-scale Artificial Intelligence Open Network — 400 Million)
Autorzy: Christoph Schuhmann, Richard Vencu, Romain Beaumont, et al.
Rok: 2021
Źródło: arXiv:2111.02114
Licencja: CC BY 4.0 (metadane i linki; obrazy — licencje oryginalne)
Dostępność: Publiczny (LAION.ai)

Charakterystyka

Rozmiar: 407 milionów par (obraz URL, tekst alt-text)
Język: angielski
Źródło danych: Common Crawl (crawl z internetu)
Filtrowanie: pary z CLIP ViT-B/32 cosine similarity ≥ 0.28 (CLIP-filtering)
Format: Parquet + img2dataset tool do pobierania obrazów
Rozmiar pobrany: ~240 GB (JPEG, mixed resolutions)

Zastosowanie w projekcie

Używany do pretrainingu OpenCLIP (Cherti 2023). Modele trenowane na LAION-400M:

OpenCLIP ViT-B/32: 62.9% ImageNet zero-shot
OpenCLIP ViT-L/14: 72.8% ImageNet zero-shot

Mniejszy niż LAION-2B — stosowany w ablacjach i mniejszych modelach (B/32, B/16).

Benchmarki

Model	ImageNet Top-1	COCO R@5
OpenCLIP ViT-B/32	62.9%	59.4%
OpenCLIP ViT-L/14	72.8%	68.4%

Używany w publikacjach

cherti-openclip — Reproducible Scaling Laws for CLIP (2023)
Schuhmann et al. 2021 (arXiv:2111.02114) — oryginalny paper datasetu
Stable Diffusion (Rombach 2022) — text encoder trenowany na LAION

Linki

Strona: https://laion.ai/blog/laion-400-open-dataset/
arXiv: https://arxiv.org/abs/2111.02114
HuggingFace: https://huggingface.co/datasets/laion/laion400m