Pomysły badawcze

High Priority

BSU-1 BPP dla ATO detection: workplace telemetry jako uzupełnienie auth logs

Hipoteza: Klasyfikator anomalii oparty na Behavioral Probability Profile (BPP) budowanym z Git + Jira + Calendar + Authentication osiąga AUC ≥ 0.85 i FPR ≤ 5% przy TPR=80% na LANL dataset, istotnie wyższy (DeLong test, p<0.05) niż model auth-only — który jest standardem w literaturze.

Terminologia: BPP(u,t) = rozkład prawdopodobieństwa P(a | u, t) nad przestrzenią akcji a dla użytkownika u w czasie t, estymowany z danych historycznych. Formalna definicja zastępuje nieokreślony termin “digital twin”.

Metodologia:

Features z LANL: auth logs (IP delta, device, session time, failed logins)
Features z własnej symulacji workspace: Git (czas commitów, rozkład dzienny, rozmiar diffów), Jira (tematy TF-IDF, priorytety, transition times), Calendar (godziny spotkań, typy)
Modele: Isolation Forest (baseline), One-Class SVM (baseline), LSTM Autoencoder, Deep SVDD
Fusion: early (concatenated features) vs. late (per-source anomaly scores ensemble)
Dataset: LANL primary (12K użytkowników, 58 dni, ~15M eventów); własna symulacja secondary

Wkład: Empiryczna walidacja workplace telemetry jako uzupełnienia auth logs — dotychczas niezbadane w literaturze tier-1; formalna definicja BPP

Venue docelowe: USENIX Security, NDSS, RAID

BSU-2 Minimum Mimicry Cost (MMC): ile kosztuje ominięcie BPP?

Hipoteza: MMC — minimalny KL-divergence między profilem behawioralnym atakującego a profilem ofiary wymagany do obniżenia TPR systemu BPP poniżej progu — rośnie monotonicznie z liczbą wymiarów telemetrii. Formalnie: MMC(d) jest funkcją rosnącą liczby użytych źródeł d.

Dlaczego to ważne: Klasyczne UEBA-papers walidują skuteczność na “blind” atakującym (losowe zachowanie). MMC kwantyfikuje koszt świadomego omijania systemu — co odpowiada realnemu zagrożeniu APT.

Metodologia:

Trzy strategie atakującego: blind (losowe), informed (zna rozkład ofiary), adaptive (gradient-based evasion)
MMC = min{ KL(P_attacker || P_victim) : TPR < 0.8 }
Symulacja dla d ∈ {1, 2, 3, 4} źródeł telemetrii
Wynik: krzywa MMC(d) — koszt rośnie z d (→ każde dodatkowe źródło danych zwiększa barierę dla atakującego)

Wkład: Nowa metryka odporności UEBA; connection do APS z projektu SP (oba mierzą “koszt ataku” z różnych perspektyw)

Venue docelowe: USENIX Security, CCS, IEEE S&P

BSU-3 Privacy-preserving BPP: FL + DP-SGD na LANL

Hipoteza: FedAvg + DP-SGD (ε=1.0, δ=10⁻⁵) osiąga AUC ≥ 0.95 × AUC_centralny przy symulacji 10 organizacji jako klientów federacyjnych na LANL. Dodatkowo: MMC modelu FL+DP nie jest istotnie niższy od MMC modelu centralnego (test jednostrony, α=0.05).

Metodologia:

Federacyjna symulacja: 10 partycji LANL jako “organizacje” (podział po IP-subnet)
Porównanie: centralny BPP vs. FedAvg vs. FedAvg+DP-SGD (ε ∈ {0.1, 0.5, 1.0, 5.0, ∞})
Metryki: AUC, FPR@TPR=0.8, MMC — wszystkie trzy
Analiza regulacyjna: GDPR Art. 22, AI Act Annex III (czy UEBA = high-risk?), RODO Art. 32

Wkład: FL+DP dla UEBA w europejskim kontekście regulacyjnym; pokazuje że DP nie degraduje MMC (prywatność i odporność mogą być jednocześnie)

Venue docelowe: PoPETs/PETS, CCS, IEEE TIFS

Medium Priority

BSU-4 Feature ablation: minimalny zestaw telemetrii dla BPP

Które ≤2 źródła z {Git, Jira, Calendar, Auth} dają >90% AUC modelu pełnego? Wynik: “minimalne wdrożenie BPP” dla organizacji bez pełnego stosu telemetrii. Uwaga: nie formułujemy tego jako “zasadę Pareto” — szukamy empirycznego optimum, nie heurystyki.

BSU-5 Cross-organization BPP transfer

Czy BPP wytrenowany na LANL można zaadaptować (fine-tuning, domain adaptation) do własnej syntetycznej symulacji workspace? Problem domain shift — zachowania są specyficzne branżowo i kulturowo.

Low Priority

BSU-6 Real-time streaming BPP

Czy BPP można wdrożyć jako streaming pipeline (Apache Kafka + Flink) z latencją <1 min na alert? Wdrożeniowy aspekt — od offline do online inference. Dobry “engineering paper” do ACSAC lub IEEE BigData.

Archiwum

BSU-1 (stara wersja) Digital twin jako UEBA baseline

Przeniesione do archiwum: termin “digital twin” jest nieokreślony i marketingowy; recenzent tier-1 odrzuci bez formalnej definicji. Zastąpione przez BPP z formalną definicją probabilistyczną. Dodatkowo stara wersja zakładała CERT dataset jako primary — nieakceptowalny od 2022 roku w tier-1. Zastąpiony przez LANL.

BSU-2 (stara wersja) Ablation study z zasadą Pareto

Przeniesione do archiwum: “≤3 sygnały dają >80% mocy” to hipoteza inżynierska bez naukowej falsifiowalności — co jeśli wynik to 75% lub 4 sygnały? Zastąpione przez MMC (#BSU-2) jako metrykę o wyraźnej semantyce naukowej.

Research

Przeglądaj

Pomysły badawcze

Pomysły badawcze

High Priority

BSU-1 BPP dla ATO detection: workplace telemetry jako uzupełnienie auth logs

BSU-2 Minimum Mimicry Cost (MMC): ile kosztuje ominięcie BPP?

BSU-3 Privacy-preserving BPP: FL + DP-SGD na LANL

Medium Priority

BSU-4 Feature ablation: minimalny zestaw telemetrii dla BPP

BSU-5 Cross-organization BPP transfer

Low Priority

BSU-6 Real-time streaming BPP

Archiwum

BSU-1 (stara wersja) Digital twin jako UEBA baseline

BSU-2 (stara wersja) Ablation study z zasadą Pareto

Graf

Spis treści

Odnośniki zwrotne