LAION-2B
Metadane
- Pełna nazwa: LAION-2B-en (English subset of LAION-5B)
- Autorzy: Christoph Schuhmann, Romain Beaumont, Richard Vencu, et al.
- Rok: 2022
- Źródło: NeurIPS 2022 (arXiv:2210.08402)
- Licencja: CC BY 4.0 (metadane i linki; obrazy — licencje oryginalne)
- Dostępność: Publiczny (LAION.ai)
Charakterystika
- Rozmiar: 2.32 miliardy par (obraz URL, tekst alt-text) — angielski podzbiór LAION-5B
- Język: angielski (detekcja CLD3)
- Źródło danych: Common Crawl (2021)
- Filtrowanie: CLIP ViT-B/32 cosine similarity ≥ 0.28 + filtr NSFW + watermark score
- Format: Parquet + img2dataset
- Rozmiar pobrany: ~540 GB (szacunkowo, mixed resolutions)
Zastosowanie w projekcie
Główny zbiór do pretrainingu wielkich modeli OpenCLIP. Modele dostępne przez HuggingFace:
open_clip.create_model_and_transforms("ViT-L-14", pretrained="laion2b_s32b_b82k")open_clip.create_model_and_transforms("ViT-H-14", pretrained="laion2b_s32b_b79k")open_clip.create_model_and_transforms("ViT-G-14", pretrained="laion2b_s34b_b88k")
Planowany do użycia w EXP-2b: porównanie ViT-B/32 vs L/14 vs H/14 na logo matching.
Benchmarki
| Model | ImageNet Top-1 | COCO R@5 |
|---|---|---|
| OpenCLIP ViT-L/14 | 75.3% | 71.1% |
| OpenCLIP ViT-H/14 | 78.0% | 73.4% |
| OpenCLIP ViT-G/14 | 80.1% | 74.9% |
Używany w publikacjach
- cherti-openclip — Reproducible Scaling Laws for CLIP (2023)
- Schuhmann et al. 2022 (arXiv:2210.08402) — LAION-5B paper
- Stable Diffusion XL (Podell 2023) — text encoder
- MetaCLIP (Xu 2023) — porównanie z LAION filteringiem
Linki
- Strona: https://laion.ai/blog/laion-5b/
- arXiv (LAION-5B): https://arxiv.org/abs/2210.08402
- HuggingFace: https://huggingface.co/datasets/laion/laion2B-en