Leveraging Latent Causal Relationships Among Web Services for Traffic Prediction
Metadane
- Autorzy: Chang Tian, Mingzhe Xing, Zenglin Shi, Matthew Blaschko, Yinliang Yue, Marie-Francine Moens
- Rok: 2025
- Źródło: arXiv (cs.LG)
- DOI/Link: arXiv:2502.00612v2
- Status: read
- Kategoria: Machine Learning
- Podkategorie: Time Series Forecasting, Causal Inference, Web Service Optimization
- Tagi: time-series-forecasting causal-inference neural-networks convergent-cross-mapping web-traffic-prediction deep-learning transformers
Streszczenie
Publikacja prezentuje CCMPlus, moduł neuronowy do prognozowania ruchu sieciowego usług webowych z wykorzystaniem przukrytych relacji przyczynowych między usługami. Autorzy, inspirując się teoriami przyczynowości z systemów ekologicznych (np. wpływ populacji królików na obfitość trawy), empirycznie identyfikują relacje przyczynowe między usługami webowymi - na przykład między Netflixem a Outlookiem, gdzie wzrost ruchu jednej usługi odpowiada zmniejszeniu ruchu drugiej. Zaproponowany moduł CCMPlus rozszerza klasyczną teorię Convergent Cross Mapping (CCM) z ekologii poprzez integrację z sieciami neuronowymi, umożliwiając ekstrakcję cech reprezentujących relacje przyczynowe. Moduł może być bezproblemowo zintegrowany z istniejącymi modelami prognozowania szeregów czasowych, konsekwentnie poprawiając dokładność przewidywań ruchu.
Kluczowe Wnioski
- Relacje przyczynowe między usługami webowymi są rzeczywiste i mogą być efektywnie wykorzystane do poprawy prognozowania ruchu sieciowego
- CCMPlus sukcesywnie ulepsza modele bazowe (TimesNet i iTransformer) poprzez dodanie informacji o przyczynowości, osiągając poprawy MSE o 5-16% i MAE o 6-13%
- Moduł CCMPlus pozostaje efektywny nawet przy bardzo drobnoziarnistych horyzontach predykcji (granulacja 1 minutowa), choć największe zyski występują przy granulacji 5-30 minut
- Teoria CCM może być skutecznie zintegrowana z architekturami neuronowymi poprzez stosowanie wielomanifoldowych przestrzeni osadzeń i mechanizmów aktualizacji momentum
- Empiryczne wyniki na trzech rzeczywistych datasetach (Microsoft Azure, Alibaba Group, Ant Group) potwierdzają skuteczność metody
Metodologia
Publikacja propozuje czterostopniowy proces ekstrakcji relacji przyczynowych:
-
Multi-Manifold Embedding - Konstruowanie shadow manifolds dla każdego szeregu czasowego ruchu sieciowego poprzez lagged coordinate vectors, z wykorzystaniem konwolucji 1D do obliczenia osadzeń. Rozszerzenie klasycznego CCM poprzez uczenie się wielowartościowych parametrów czasowych zamiast ręcznego ich ustawiania.
-
Estymacja w przestrzeni multi-manifold - Wykorzystanie punktów z shadow manifold jednej usługi do predykcji wartości innej usługi, identyfikowanie D+1 najbliższych sąsiadów i użycie średniej ważonej do estymacji.
-
Momentum-Updated Correlation Coefficient Matrix - Obliczenie macierzy korelacji przyczynowej poprzez porównanie predykcji z wartościami rzeczywistymi, z aktualizacją momentum w celu zapewnienia stabilności reprezentacji.
-
Causality Enhanced Time Series Representation - Integracja informacji o przyczynowości z istniejącymi modelami bazowymi (Backbone Time Series Model) poprzez konkatenację reprezentacji CCMPlus z reprezentacjami czasowymi.
Główne Koncepcje
-
Convergent Cross Mapping (CCM): Teorytyczna baza pochodząca z ekologii, służąca do detekowania relacji przyczynowych między zmiennymi poprzez analizę manifoldów przestrzeni stanów.
-
Shadow Manifold: Projekcja oryginalnego manifoldu na zmienną w postaci lagged coordinate vectors, reprezentujące trajektorie systemu z opóźnieniami czasowymi.
-
Multi-manifold Embedding: Rozszerzenie tradycyjnego CCM poprzez konstruowanie wielu shadow manifolds z różnymi parametrami czasowymi (τ i E), umożliwiające naukę przyczynowości z różnych perspektyw.
-
Causal Correlation Matrix (M): Macierz NxN opisująca siłę relacji przyczynowych między każdą parą usług sieciowych, aktualizowana z mechanizmem momentum.
-
Backbone Time Series Model (BTSM): Model bazowy do ekstrakcji czasowych cech (TimesNet lub iTransformer), który jest wzbogacany reprezentacją CCMPlus.
Wyniki
Eksperymenty przeprowadzone na trzech publicznych datasetach:
- Alibaba Group Traffic: 1000 usług, 13 dni
- Microsoft Azure Traffic: 1000 usług, 14 dni
- Ant Group Traffic: 113 usług, 146 dni
Wyniki dla granulacji 30 minut (najdłuższy horyzont predykcji):
- CCM+iTransformer: MSE=14.32 (-26.8% vs iTransformer), MAE=0.648 (-18.3%)
- CCM+TimesNet: MSE=14.92 vs TimesNet MSE=16.62, MAE=0.679 vs 0.718
Wyniki dla granulacji 5 minut:
- CCM+iTransformer: MSE=2.978 (-1.3% vs iTransformer), MAE=0.366 (-2.8%)
- CCM+TimesNet: MSE=1.810 (-16.5% vs TimesNet), MAE=0.339 (-13.5%)
Testy t-testowe potwierdzają istotność statystyczną (p-value < 0.001) dla wszystkich ulepszień.
Przydatne Cytaty
“Drawing inspiration from ecological causality, for example, grass abundance and rabbit populations influencing one another iteratively [15], we identify analogous patterns in web service traffic” (str. 1)
“Previous research has extensively explored statistical approaches, and neural networks to mine features from preceding service traffic time series for prediction. However, these methods have largely overlooked the latent causal relationships between services.” (str. 1)
“The CCMPlus module enhances existing time series forecasting models by generating feature representations that incorporate latent causal relationships across web services, addressing a critical limitation of many previous methods.” (str. 2)
“By comparing these estimations with the ground truth, a causal correlation matrix is computed and used to generate the CCMPlus representation, quantifying inter-service causal dependencies.” (str. 6)
“CCMPlus consistently improves the SOTA models (TimesNet and iTransformer), underscoring the importance of considering causality among service traffic patterns.” (str. 6)
Datasety
- Microsoft Azure Traffic - Dataset zawierający log ruchu 1000 usług przez 14 dni, wykorzystany do walidacji metody
- Alibaba Group Traffic - Dataset 1000 usług przez 13 dni z rzeczywistych operacji
- Ant Group Traffic - Mniejszy dataset 113 usług przez 146 dni, demonstrujący skuteczność na różnych skalach
Powiązane Tematy
- Time Series Forecasting (TimesNet, iTransformer, Transformer-based methods)
- Causal Inference in Machine Learning
- Convergent Cross Mapping (teoria ekologiczna)
- Web Service Autoscaling i Resource Management
- Multi-variate Time Series Analysis
- Anomaly Detection in Service Systems
- Neural Network Architecture Design for Temporal Modeling
- Momentum-based Optimization Methods
Notatki
[Miejsce na dodatkowe notatki użytkownika]