Alibaba Group Traffic Dataset
Informacje podstawowe
- Nazwa: Alibaba Group Traffic
- Alias: Alibaba Traffic, Alibaba Service Traffic, Alibaba Cloud Traffic
- Dziedzina: Cloud Computing, Systems, E-commerce
- Typ: Time Series, Tabular
Źródło
- URL: https://github.com/alibaba/clusterdata
- Paper: Leveraging Latent Causal Relationships Among Web Services for Traffic Prediction
- Organizacja: Alibaba Group
- Rok: 2020s (historyczne dane)
Charakterystyka
- Rozmiar: 1000 web services, 13 days of observations
- Granulacja: Multiple time intervals (1, 5, 15, 30 minutes)
- Format: Time series data (request counts per time point)
- Klasy/Kategorie: 1000 different web services
- Licencja: Public dataset
Opis
Alibaba Group Traffic dataset zawiera rzeczywiste dane o ruchu sieciowym z infrastruktury Alibaba Group. Dataset obejmuje 1000 usług sieciowych obserwowanych przez 13 dni. Reprezentuje produkcyjne scenariusze pracy z różnymi wzorcami obciążenia.
Dane pokazują znaczące fluktuacje i częste zmiany w czasie, napędzane heterogenicznymi zachowaniami użytkowników. Każdy punkt danych reprezentuje liczbę żądań (request count) dla konkretnej usługi w danym momencie czasowym.
Dataset jest szczególnie wartościowy do badania relacji przyczynowych między usługami w środowisku produkcyjnym.
Zastosowania
- Prognozowanie ruchu sieciowego dla skalowania zasobów
- Analiza wzorców ruchu w systemach e-commerce
- Detekcja anomalii w usługach webowych
- Testowanie algorytmów autoscalingu na danych produkcyjnych
- Benchmarking metod prognozowania szeregów czasowych
- Badanie relacji przyczynowych w systemach rozprosonych
Używany w publikacjach
- [Leveraging Latent Causal Relationships Among Web Services for Traffic Prediction] - Główny dataset demonstrujący skuteczność CCMPlus na największych poprawach (do -22% MSE przy granulacji 30 minut)
Benchmarki
| Model | Metric | Score (30 min) | Granulacja | Rok | Publikacja |
|---|---|---|---|---|---|
| MagicScaler | MSE | 3.49 | 30 min | 2023 | [CCMPlus paper] |
| OptScaler | MSE | 3.57 | 30 min | 2024 | [CCMPlus paper] |
| TimesNet | MSE | 3.18 | 30 min | 2023 | [CCMPlus paper] |
| iTransformer | MSE | 3.12 | 30 min | 2024 | [CCMPlus paper] |
| CCM+TimesNet | MSE | 3.02 | 30 min | 2025 | [CCMPlus paper] |
| TimesNet | MSE | 2.17 | 5 min | 2023 | [CCMPlus paper] |
| CCM+TimesNet | MSE | 1.81 | 5 min | 2025 | [CCMPlus paper] |
Uwagi
- Dataset jest publicznie dostępny przez GitHub Alibaba
- Zawiera dane z rzeczywistej produkcji Alibaba Cloud
- Wymagane preprocessowanie dla różnych granularności czasowych
- Jedna z największych dostępnych publicznych kolekcji danych o ruchu webowym
- Pokazuje naturalne relacje przyczynowe między usługami
Tagi
dataset time-series web-traffic alibaba-cloud e-commerce cloud-computing real-world-data production-data prediction-benchmark