Pomysły badawcze
High Priority
BSU-1 BPP dla ATO detection: workplace telemetry jako uzupełnienie auth logs
Hipoteza: Klasyfikator anomalii oparty na Behavioral Probability Profile (BPP) budowanym z Git + Jira + Calendar + Authentication osiąga AUC ≥ 0.85 i FPR ≤ 5% przy TPR=80% na LANL dataset, istotnie wyższy (DeLong test, p<0.05) niż model auth-only — który jest standardem w literaturze.
Terminologia: BPP(u,t) = rozkład prawdopodobieństwa P(a | u, t) nad przestrzenią akcji a dla użytkownika u w czasie t, estymowany z danych historycznych. Formalna definicja zastępuje nieokreślony termin “digital twin”.
Metodologia:
- Features z LANL: auth logs (IP delta, device, session time, failed logins)
- Features z własnej symulacji workspace: Git (czas commitów, rozkład dzienny, rozmiar diffów), Jira (tematy TF-IDF, priorytety, transition times), Calendar (godziny spotkań, typy)
- Modele: Isolation Forest (baseline), One-Class SVM (baseline), LSTM Autoencoder, Deep SVDD
- Fusion: early (concatenated features) vs. late (per-source anomaly scores ensemble)
- Dataset: LANL primary (12K użytkowników, 58 dni, ~15M eventów); własna symulacja secondary
Wkład: Empiryczna walidacja workplace telemetry jako uzupełnienia auth logs — dotychczas niezbadane w literaturze tier-1; formalna definicja BPP
Venue docelowe: USENIX Security, NDSS, RAID
BSU-2 Minimum Mimicry Cost (MMC): ile kosztuje ominięcie BPP?
Hipoteza: MMC — minimalny KL-divergence między profilem behawioralnym atakującego a profilem ofiary wymagany do obniżenia TPR systemu BPP poniżej progu — rośnie monotonicznie z liczbą wymiarów telemetrii. Formalnie: MMC(d) jest funkcją rosnącą liczby użytych źródeł d.
Dlaczego to ważne: Klasyczne UEBA-papers walidują skuteczność na “blind” atakującym (losowe zachowanie). MMC kwantyfikuje koszt świadomego omijania systemu — co odpowiada realnemu zagrożeniu APT.
Metodologia:
- Trzy strategie atakującego: blind (losowe), informed (zna rozkład ofiary), adaptive (gradient-based evasion)
- MMC = min{ KL(P_attacker || P_victim) : TPR < 0.8 }
- Symulacja dla d ∈ {1, 2, 3, 4} źródeł telemetrii
- Wynik: krzywa MMC(d) — koszt rośnie z d (→ każde dodatkowe źródło danych zwiększa barierę dla atakującego)
Wkład: Nowa metryka odporności UEBA; connection do APS z projektu SP (oba mierzą “koszt ataku” z różnych perspektyw)
Venue docelowe: USENIX Security, CCS, IEEE S&P
BSU-3 Privacy-preserving BPP: FL + DP-SGD na LANL
Hipoteza: FedAvg + DP-SGD (ε=1.0, δ=10⁻⁵) osiąga AUC ≥ 0.95 × AUC_centralny przy symulacji 10 organizacji jako klientów federacyjnych na LANL. Dodatkowo: MMC modelu FL+DP nie jest istotnie niższy od MMC modelu centralnego (test jednostrony, α=0.05).
Metodologia:
- Federacyjna symulacja: 10 partycji LANL jako “organizacje” (podział po IP-subnet)
- Porównanie: centralny BPP vs. FedAvg vs. FedAvg+DP-SGD (ε ∈ {0.1, 0.5, 1.0, 5.0, ∞})
- Metryki: AUC, FPR@TPR=0.8, MMC — wszystkie trzy
- Analiza regulacyjna: GDPR Art. 22, AI Act Annex III (czy UEBA = high-risk?), RODO Art. 32
Wkład: FL+DP dla UEBA w europejskim kontekście regulacyjnym; pokazuje że DP nie degraduje MMC (prywatność i odporność mogą być jednocześnie)
Venue docelowe: PoPETs/PETS, CCS, IEEE TIFS
Medium Priority
BSU-4 Feature ablation: minimalny zestaw telemetrii dla BPP
Które ≤2 źródła z {Git, Jira, Calendar, Auth} dają >90% AUC modelu pełnego? Wynik: “minimalne wdrożenie BPP” dla organizacji bez pełnego stosu telemetrii. Uwaga: nie formułujemy tego jako “zasadę Pareto” — szukamy empirycznego optimum, nie heurystyki.
BSU-5 Cross-organization BPP transfer
Czy BPP wytrenowany na LANL można zaadaptować (fine-tuning, domain adaptation) do własnej syntetycznej symulacji workspace? Problem domain shift — zachowania są specyficzne branżowo i kulturowo.
Low Priority
BSU-6 Real-time streaming BPP
Czy BPP można wdrożyć jako streaming pipeline (Apache Kafka + Flink) z latencją <1 min na alert? Wdrożeniowy aspekt — od offline do online inference. Dobry “engineering paper” do ACSAC lub IEEE BigData.
Archiwum
BSU-1 (stara wersja) Digital twin jako UEBA baseline
Przeniesione do archiwum: termin “digital twin” jest nieokreślony i marketingowy; recenzent tier-1 odrzuci bez formalnej definicji. Zastąpione przez BPP z formalną definicją probabilistyczną. Dodatkowo stara wersja zakładała CERT dataset jako primary — nieakceptowalny od 2022 roku w tier-1. Zastąpiony przez LANL.
BSU-2 (stara wersja) Ablation study z zasadą Pareto
Przeniesione do archiwum: “≤3 sygnały dają >80% mocy” to hipoteza inżynierska bez naukowej falsifiowalności — co jeśli wynik to 75% lub 4 sygnały? Zastąpione przez MMC (#BSU-2) jako metrykę o wyraźnej semantyce naukowej.