Detecting Anomalous User Behavior Using an Extended Isolation Forest Algorithm: An Enterprise Case Study
Metadane
- Autorzy: Li Sun, Steven Versteeg, Serdar Boztas, Asha Rao (RMIT University; CA Labs)
- Rok: 2016
- Źródło: arXiv:1609.06676
- DOI: arxiv:1609.06676
- Status:
#read - Kategoria: Security / Machine Learning
- Tagi:
#anomaly-detection#isolation-forest#ueba#insider-threat#unsupervised-learning
Streszczenie
Paper prezentuje framework detekcji anomalii w zachowaniu użytkowników oparty na rozszerzonej wersji algorytmu Isolation Forest. Kluczowa innowacja: rozszerzenie algorytmu o obsługę danych kategorycznych, co jest niezbędne dla typowych logów korporacyjnych (user ID, zasób, akcja, czas).
Metoda nie wymaga przykładów anomalii w danych treningowych (unsupervised), co jest kluczową zaletą w praktycznych wdrożeniach gdzie labelled anomalies są rzadkością. System stosowany do enterprise dataset — logi dostępu do systemu payroll w dużej organizacji.
Wyniki pokazują zdolność systemu do izolowania anomalnych instancji z bazowego modelu użytkownika używając pojedynczej lub kombinacji cech. Metoda jest szybka i skalowalna, co czyni ją praktycznie wdrażalną w środowiskach enterprise.
Kluczowe Wnioski
- Extended Isolation Forest radzi sobie z danymi kategorycznymi (kluczowe dla logów korporacyjnych)
- Unsupervised approach eliminuje potrzebę labeled anomalies w treningu
- Kombinacja cech daje lepszą detekcję niż pojedyncze cechy
- System skaluje się do dużych ilości plików logów
- Wyniki: skuteczna izolacja anomalnych instancji od baseline modelu użytkownika
Metodologia
- Rozszerzenie Isolation Forest: modyfikacja dla danych kategorycznych przez custom split criterion
- Feature engineering: single features + combined features evaluation
- Dataset: enterprise logi dostępu do systemu payroll (duża organizacja, liczba rekordów nie ujawniona)
- Evaluation: zdolność izolowania wstrzykniętych anomalii
Główne Koncepcje
- Isolation Forest: algorytm anomaly detection przez rekursywne partycjonowanie — anomalie są izolowane szybciej niż normalne punkty
- Extended Isolation Forest: rozszerzenie o split criterion dla danych kategorycznych
- Behavioral baseline: model normalnego zachowania per user zbudowany z danych historycznych
- One-class classification: trening tylko na normalnych danych, detekcja odchyleń
Wyniki
Skuteczna detekcja anomalii na enterprise dataset. Brak standardowych metryk (AUC, F1) — paper z 2016, przed standaryzacją raportowania wyników UEBA.
Przydatne Cytaty
- “Our method does not require any example anomalies in the training set”
- “The system is able to isolate anomalous instances from the baseline user model using a single feature or combined features”
Datasety
- Enterprise payroll system access logs (duża organizacja, anonimizowane)
Powiązane Tematy
- BPP (Behavioral Probability Profile) jako formalna definicja (#BSU-1)
- Porównanie z LSTM Autoencoder i Deep SVDD (#BSU-1)
- Feature ablation study (#BSU-4)
Notatki
Foundational baseline dla BSU-1. Kluczowe że nie wymaga labeled anomalies — to samo założenie co BPP approach.