Pobierz PDF

Detecting Anomalous User Behavior Using an Extended Isolation Forest Algorithm: An Enterprise Case Study

Metadane

  • Autorzy: Li Sun, Steven Versteeg, Serdar Boztas, Asha Rao (RMIT University; CA Labs)
  • Rok: 2016
  • Źródło: arXiv:1609.06676
  • DOI: arxiv:1609.06676
  • Status: #read
  • Kategoria: Security / Machine Learning
  • Tagi: #anomaly-detection #isolation-forest #ueba #insider-threat #unsupervised-learning

Streszczenie

Paper prezentuje framework detekcji anomalii w zachowaniu użytkowników oparty na rozszerzonej wersji algorytmu Isolation Forest. Kluczowa innowacja: rozszerzenie algorytmu o obsługę danych kategorycznych, co jest niezbędne dla typowych logów korporacyjnych (user ID, zasób, akcja, czas).

Metoda nie wymaga przykładów anomalii w danych treningowych (unsupervised), co jest kluczową zaletą w praktycznych wdrożeniach gdzie labelled anomalies są rzadkością. System stosowany do enterprise dataset — logi dostępu do systemu payroll w dużej organizacji.

Wyniki pokazują zdolność systemu do izolowania anomalnych instancji z bazowego modelu użytkownika używając pojedynczej lub kombinacji cech. Metoda jest szybka i skalowalna, co czyni ją praktycznie wdrażalną w środowiskach enterprise.

Kluczowe Wnioski

  • Extended Isolation Forest radzi sobie z danymi kategorycznymi (kluczowe dla logów korporacyjnych)
  • Unsupervised approach eliminuje potrzebę labeled anomalies w treningu
  • Kombinacja cech daje lepszą detekcję niż pojedyncze cechy
  • System skaluje się do dużych ilości plików logów
  • Wyniki: skuteczna izolacja anomalnych instancji od baseline modelu użytkownika

Metodologia

  • Rozszerzenie Isolation Forest: modyfikacja dla danych kategorycznych przez custom split criterion
  • Feature engineering: single features + combined features evaluation
  • Dataset: enterprise logi dostępu do systemu payroll (duża organizacja, liczba rekordów nie ujawniona)
  • Evaluation: zdolność izolowania wstrzykniętych anomalii

Główne Koncepcje

  • Isolation Forest: algorytm anomaly detection przez rekursywne partycjonowanie — anomalie są izolowane szybciej niż normalne punkty
  • Extended Isolation Forest: rozszerzenie o split criterion dla danych kategorycznych
  • Behavioral baseline: model normalnego zachowania per user zbudowany z danych historycznych
  • One-class classification: trening tylko na normalnych danych, detekcja odchyleń

Wyniki

Skuteczna detekcja anomalii na enterprise dataset. Brak standardowych metryk (AUC, F1) — paper z 2016, przed standaryzacją raportowania wyników UEBA.

Przydatne Cytaty

  • “Our method does not require any example anomalies in the training set”
  • “The system is able to isolate anomalous instances from the baseline user model using a single feature or combined features”

Datasety

  • Enterprise payroll system access logs (duża organizacja, anonimizowane)

Powiązane Tematy

  • BPP (Behavioral Probability Profile) jako formalna definicja (#BSU-1)
  • Porównanie z LSTM Autoencoder i Deep SVDD (#BSU-1)
  • Feature ablation study (#BSU-4)

Notatki

Foundational baseline dla BSU-1. Kluczowe że nie wymaga labeled anomalies — to samo założenie co BPP approach.

Elementów w folderze: 0.