Behavioral Baseline for UEBA & Privacy-Preserving Profiling
Kontekst i motywacja
Istniejące systemy UEBA bazują głównie na logach sieciowych i autentykacji. Brakuje pracy empirycznie walidującej użycie workplace productivity telemetry (Git, Jira, calendar) jako sygnału behawioralnego dla post-compromise ATO detection. Kluczowa luka: nie wiadomo, jak bardzo atakujący musi “zachowywać się jak ofiara” żeby ominąć taki system — to pytanie o odporność, nie tylko skuteczność.
Terminologia: zamiast “digital twin” (marketingowy buzzword bez formalnej definicji) używamy behavioral probability profile (BPP) — formalnie: rozkład prawdopodobieństwa P(a | u, t) nad przestrzenią akcji a dla użytkownika u w czasie t, estymowany z danych historycznych.
Dataset: CERT Insider Threat jest nieakceptowalny dla tier-1 od 2022 roku (zbyt mały, zbyt syntetyczny). Główny dataset: LANL Unified Host and Network (15M eventów, 12K użytkowników, 58 dni). Uzupełnienie: własna symulacja na workplace telemetrii.
Pytania badawcze
- Czy BPP zbudowany z workplace telemetry (Git, Jira, Calendar, Authentication) pozwala wykryć post-compromise ATO szybciej i z niższym FPR niż modele trenowane wyłącznie na logach sieciowych/autentykacji?
- Jak bardzo atakujący musi upodobnić swoje zachowanie do profilu ofiary, żeby uniknąć detekcji? (adversarial evaluation: minimum mimicry cost)
- Czy federacyjny BPP z differential privacy (ε ≤ 1.0) zachowuje >95% AUC modelu centralnego? (utility/privacy trade-off)
Kluczowe hipotezy
- H1: Klasyfikator anomalii oparty na BPP (Git + Jira + Calendar + Auth) osiąga AUC ≥ 0.85 i FPR ≤ 5% przy TPR = 80% na zbiorze LANL, istotnie wyższy niż modele auth-only (p < 0.05, DeLong test dla AUC). Falsifiowalne: odrzucamy jeśli przewaga nie jest istotna statystycznie.
- H2: Minimalny koszt mimikry (MCM) — minimalny KL-divergence między profilem atakującego a profilem ofiary wymagany do poniżej TPR = 80% — rośnie monotonicznie z liczbą wymiarów telemetrii. To kwantyfikuje “ile kosztuje ominięcie systemu” i jest nową metryką wkładu.
- H3: FedAvg + DP-SGD (ε = 1.0, δ = 10⁻⁵) osiąga AUC ≥ 0.95 × AUC_centralny na LANL przy symulacji 10 organizacji jako klientów federacyjnych.
Metodologia
Paper 1: BPP dla ATO detection
Feature engineering z workplace telemetry:
- Git: czas commitów, rozkład dzienny/tygodniowy, rozmiar diffów, liczba plików per commit, języki
- Jira: tematy ticketów (TF-IDF embeddeding), priorytety, transition times, sprint velocity
- Calendar: godziny spotkań, liczba uczestników, typy spotkań (standup vs. external)
- Auth: IP geolocation delta, device fingerprint, session duration, failed login rate
Modele BPP:
- Baseline: Isolation Forest, One-Class SVM (auth-only — punkt odniesienia z literatury)
- Proponowane: LSTM Autoencoder na sekwencjach temporalnych, Deep SVDD z multi-source fusion
- Fusion: late fusion (per-source anomaly scores) vs. early fusion (concatenated features)
Adversarial evaluation (kluczowa nowa contribution):
- Zdefiniuj MCM = min{ KL(P_attacker || P_victim) : TPR(classifier) < threshold }
- Symuluj atakujących o różnych strategiach: “blind” (losowe zachowanie), “informed” (zna rozkład ofiary), “adaptive” (gradient-based evasion)
- Pytanie: ile kosztuje ominięcie systemu? Jak rośnie koszt z liczbą wymiarów?
Dataset: LANL Unified Host and Network (primary); własna symulacja workspace telemetry (secondary, N=20 syntetycznych użytkowników × 6 miesięcy)
Paper 2: Privacy-preserving BPP
- Federacyjna symulacja: 10 “organizacji” jako klientów, każdy z podzbiorem LANL
- Porównanie: centralny BPP vs. FedAvg vs. FedAvg+DP-SGD (ε ∈ {0.1, 0.5, 1.0, 5.0})
- Metryki: AUC, FPR, MCM — wszystkie trzy, żeby pokazać że DP nie degraduje odporności na evasion
- Analiza regulacyjna: GDPR Art. 22, AI Act Annex III pkt 6 (UEBA jako high-risk?), RODO Art. 32
Datasety
- LANL Unified Host and Network (primary): https://csr.lanl.gov/data/cyber1/
- Własna symulacja workplace telemetry (secondary): N=20 profili × 6 miesięcy Git/Jira/Calendar syntetycznych
- NIE używamy CERT Insider Threat jako primary benchmark (nieakceptowalny przez tier-1 od 2022)
Wkład naukowy
- BPP jako formalna definicja zastępująca nieokreślony termin “digital twin” w kontekście UEBA
- MCM (Minimum Mimicry Cost) — nowa metryka odporności systemu UEBA na adversarial evasion
- Empiryczna walidacja workplace telemetry (Git+Jira+Calendar) jako uzupełnienia auth logs — dotychczas niezbadane w literaturze tier-1
- FL+DP dla UEBA w europejskim kontekście regulacyjnym z analizą GDPR/AI Act
Venue docelowe
- Paper 1 (BPP + adversarial): USENIX Security, NDSS, RAID, ACSAC
- Paper 2 (FL+DP): PETS, ACM CCS, IEEE TIFS
- Nie: konferencje używające CERT jako primary benchmark jako głównego porównania
Niezależność od innych projektów
Projekt jest samowystarczalny: używa LANL (publiczny) i własnej symulacji. Nie wymaga infrastruktury z SP. MCM jako metryka tworzy powiązanie konceptualne z APS z projektu SP (oba mierzą “koszt ataku”), ale nie ma zależności implementacyjnej.
Prefix ID
#BSU-