Behavioral Baseline for UEBA & Privacy-Preserving Profiling

Kontekst i motywacja

Istniejące systemy UEBA bazują głównie na logach sieciowych i autentykacji. Brakuje pracy empirycznie walidującej użycie workplace productivity telemetry (Git, Jira, calendar) jako sygnału behawioralnego dla post-compromise ATO detection. Kluczowa luka: nie wiadomo, jak bardzo atakujący musi “zachowywać się jak ofiara” żeby ominąć taki system — to pytanie o odporność, nie tylko skuteczność.

Terminologia: zamiast “digital twin” (marketingowy buzzword bez formalnej definicji) używamy behavioral probability profile (BPP) — formalnie: rozkład prawdopodobieństwa P(a | u, t) nad przestrzenią akcji a dla użytkownika u w czasie t, estymowany z danych historycznych.

Dataset: CERT Insider Threat jest nieakceptowalny dla tier-1 od 2022 roku (zbyt mały, zbyt syntetyczny). Główny dataset: LANL Unified Host and Network (15M eventów, 12K użytkowników, 58 dni). Uzupełnienie: własna symulacja na workplace telemetrii.

Pytania badawcze

Czy BPP zbudowany z workplace telemetry (Git, Jira, Calendar, Authentication) pozwala wykryć post-compromise ATO szybciej i z niższym FPR niż modele trenowane wyłącznie na logach sieciowych/autentykacji?
Jak bardzo atakujący musi upodobnić swoje zachowanie do profilu ofiary, żeby uniknąć detekcji? (adversarial evaluation: minimum mimicry cost)
Czy federacyjny BPP z differential privacy (ε ≤ 1.0) zachowuje >95% AUC modelu centralnego? (utility/privacy trade-off)

Kluczowe hipotezy

H1: Klasyfikator anomalii oparty na BPP (Git + Jira + Calendar + Auth) osiąga AUC ≥ 0.85 i FPR ≤ 5% przy TPR = 80% na zbiorze LANL, istotnie wyższy niż modele auth-only (p < 0.05, DeLong test dla AUC). Falsifiowalne: odrzucamy jeśli przewaga nie jest istotna statystycznie.
H2: Minimalny koszt mimikry (MCM) — minimalny KL-divergence między profilem atakującego a profilem ofiary wymagany do poniżej TPR = 80% — rośnie monotonicznie z liczbą wymiarów telemetrii. To kwantyfikuje “ile kosztuje ominięcie systemu” i jest nową metryką wkładu.
H3: FedAvg + DP-SGD (ε = 1.0, δ = 10⁻⁵) osiąga AUC ≥ 0.95 × AUC_centralny na LANL przy symulacji 10 organizacji jako klientów federacyjnych.

Metodologia

Paper 1: BPP dla ATO detection

Feature engineering z workplace telemetry:

Git: czas commitów, rozkład dzienny/tygodniowy, rozmiar diffów, liczba plików per commit, języki
Jira: tematy ticketów (TF-IDF embeddeding), priorytety, transition times, sprint velocity
Calendar: godziny spotkań, liczba uczestników, typy spotkań (standup vs. external)
Auth: IP geolocation delta, device fingerprint, session duration, failed login rate

Modele BPP:

Baseline: Isolation Forest, One-Class SVM (auth-only — punkt odniesienia z literatury)
Proponowane: LSTM Autoencoder na sekwencjach temporalnych, Deep SVDD z multi-source fusion
Fusion: late fusion (per-source anomaly scores) vs. early fusion (concatenated features)

Adversarial evaluation (kluczowa nowa contribution):

Zdefiniuj MCM = min{ KL(P_attacker || P_victim) : TPR(classifier) < threshold }
Symuluj atakujących o różnych strategiach: “blind” (losowe zachowanie), “informed” (zna rozkład ofiary), “adaptive” (gradient-based evasion)
Pytanie: ile kosztuje ominięcie systemu? Jak rośnie koszt z liczbą wymiarów?

Dataset: LANL Unified Host and Network (primary); własna symulacja workspace telemetry (secondary, N=20 syntetycznych użytkowników × 6 miesięcy)

Paper 2: Privacy-preserving BPP

Federacyjna symulacja: 10 “organizacji” jako klientów, każdy z podzbiorem LANL
Porównanie: centralny BPP vs. FedAvg vs. FedAvg+DP-SGD (ε ∈ {0.1, 0.5, 1.0, 5.0})
Metryki: AUC, FPR, MCM — wszystkie trzy, żeby pokazać że DP nie degraduje odporności na evasion
Analiza regulacyjna: GDPR Art. 22, AI Act Annex III pkt 6 (UEBA jako high-risk?), RODO Art. 32

Datasety

LANL Unified Host and Network (primary): https://csr.lanl.gov/data/cyber1/
Własna symulacja workplace telemetry (secondary): N=20 profili × 6 miesięcy Git/Jira/Calendar syntetycznych
NIE używamy CERT Insider Threat jako primary benchmark (nieakceptowalny przez tier-1 od 2022)

Wkład naukowy

BPP jako formalna definicja zastępująca nieokreślony termin “digital twin” w kontekście UEBA
MCM (Minimum Mimicry Cost) — nowa metryka odporności systemu UEBA na adversarial evasion
Empiryczna walidacja workplace telemetry (Git+Jira+Calendar) jako uzupełnienia auth logs — dotychczas niezbadane w literaturze tier-1
FL+DP dla UEBA w europejskim kontekście regulacyjnym z analizą GDPR/AI Act

Venue docelowe

Paper 1 (BPP + adversarial): USENIX Security, NDSS, RAID, ACSAC
Paper 2 (FL+DP): PETS, ACM CCS, IEEE TIFS
Nie: konferencje używające CERT jako primary benchmark jako głównego porównania

Niezależność od innych projektów

Projekt jest samowystarczalny: używa LANL (publiczny) i własnej symulacji. Nie wymaga infrastruktury z SP. MCM jako metryka tworzy powiązanie konceptualne z APS z projektu SP (oba mierzą “koszt ataku”), ale nie ma zależności implementacyjnej.

Prefix ID

#BSU-

Research

Przeglądaj

Behavioral Baseline for UEBA & Privacy-Preserving Profiling

Behavioral Baseline for UEBA & Privacy-Preserving Profiling

Kontekst i motywacja

Pytania badawcze

Kluczowe hipotezy

Metodologia

Paper 1: BPP dla ATO detection

Paper 2: Privacy-preserving BPP

Datasety

Wkład naukowy

Venue docelowe

Niezależność od innych projektów

Prefix ID

Architektura i Eksperymenty

Notatki robocze

Pomysły badawcze

Bibliografia