Cybersecurity Threat Detection Based on a UEBA Framework Using Deep Autoencoders
Metadane
- Autorzy: Jose Fuentes, Ines Ortega-Fernandez, Nora M. Villanueva, Marta Sestelo
- Rok: 2025
- Źródło: AIMS Mathematics; arXiv:2505.11542
- DOI: 10.3934/math.20251043
- Status:
#read - Kategoria: Security / Deep Learning
- Tagi:
#ueba#autoencoder#deep-learning#anomaly-detection#explainability#doc2vec
Streszczenie
Paper proponuje explainable UEBA framework łączący Deep Autoencoders z Doc2Vec do profilowania zachowań użytkowników i detekcji incydentów bezpieczeństwa. Kluczowa innowacja: eksplainowalność systemu — model nie tylko wykrywa anomalie, ale dostarcza human-readable wyjaśnienia dlaczego dana aktywność jest anomalna.
Doc2Vec używany do reprezentacji sekwencji zdarzeń użytkownika jako wektory; Deep Autoencoder uczy się normalnego zachowania przez rekonstrukcję; anomalie wykrywane przez wysoki błąd rekonstrukcji. Warstwa eksplainowalności mapuje błąd rekonstrukcji na konkretne cechy zachowania odpowiedzialne za anomalię.
Kluczowe Wnioski
- Kombinacja Doc2Vec + Deep Autoencoder skutecznie profiluje zachowania użytkowników
- Explainability jako kluczowy requirement dla operacyjnego UEBA (SOC analysts potrzebują uzasadnienia alertów)
- Framework first explainable UEBA łączący NLP (Doc2Vec) z unsupervised anomaly detection
- Syntetyczne anomalie generowane z realnych danych do ewaluacji
Metodologia
- Doc2Vec: embeddingi sekwencji zdarzeń użytkownika (reprezentacja semantyczna zachowania)
- Deep Autoencoder: unsupervised learning normalnego zachowania przez rekonstrukcję
- Anomaly score: reconstruction error
- Explainability: feature attribution dla wskazania przyczyny anomalii
- Dataset: real attack data z syntetycznie generowanymi anomaliami
Główne Koncepcje
- Doc2Vec: rozszerzenie Word2Vec do reprezentacji dokumentów/sekwencji (Paragraph Vector)
- Reconstruction-based anomaly detection: anomalia = wysoki błąd rekonstrukcji przez model nauczony na normalnych danych
- Explainable UEBA: system wskazujący które aspekty zachowania są anomalne, nie tylko że anomalia istnieje
Wyniki
Skuteczna detekcja na własnym datasecie z syntetycznymi anomaliami. Brak standardowych benchmarkowych wyników (CERT, LANL).
Przydatne Cytaty
- “First explainable UEBA framework combining Deep Autoencoders + Doc2Vec”
Datasety
Real attack data z syntetycznymi anomaliami (brak publicznego datasetu).
Powiązane Tematy
- BPP framework i jego explainability (#BSU-1)
- Comparison z Doc2Vec vs. TF-IDF dla Jira tickets
- SOC analyst requirements dla alertów UEBA
Notatki
Publikacja w AIMS Mathematics (tier-2) — wyniki obiecujące ale wymagają walidacji na standardowych benchmarkach (LANL).