LAION-400M
Metadane
- Pełna nazwa: LAION-400M (Large-scale Artificial Intelligence Open Network — 400 Million)
- Autorzy: Christoph Schuhmann, Richard Vencu, Romain Beaumont, et al.
- Rok: 2021
- Źródło: arXiv:2111.02114
- Licencja: CC BY 4.0 (metadane i linki; obrazy — licencje oryginalne)
- Dostępność: Publiczny (LAION.ai)
Charakterystyka
- Rozmiar: 407 milionów par (obraz URL, tekst alt-text)
- Język: angielski
- Źródło danych: Common Crawl (crawl z internetu)
- Filtrowanie: pary z CLIP ViT-B/32 cosine similarity ≥ 0.28 (CLIP-filtering)
- Format: Parquet + img2dataset tool do pobierania obrazów
- Rozmiar pobrany: ~240 GB (JPEG, mixed resolutions)
Zastosowanie w projekcie
Używany do pretrainingu OpenCLIP (Cherti 2023). Modele trenowane na LAION-400M:
- OpenCLIP ViT-B/32: 62.9% ImageNet zero-shot
- OpenCLIP ViT-L/14: 72.8% ImageNet zero-shot
Mniejszy niż LAION-2B — stosowany w ablacjach i mniejszych modelach (B/32, B/16).
Benchmarki
| Model | ImageNet Top-1 | COCO R@5 |
|---|---|---|
| OpenCLIP ViT-B/32 | 62.9% | 59.4% |
| OpenCLIP ViT-L/14 | 72.8% | 68.4% |
Używany w publikacjach
- cherti-openclip — Reproducible Scaling Laws for CLIP (2023)
- Schuhmann et al. 2021 (arXiv:2111.02114) — oryginalny paper datasetu
- Stable Diffusion (Rombach 2022) — text encoder trenowany na LAION