CERT Insider Threat Dataset
Metadane
- Źródło: Carnegie Mellon University Software Engineering Institute (CMU SEI)
- Wersja: v6.2 (najnowsza)
- URL: https://kilthub.cmu.edu/articles/dataset/Insider_Threat_Test_Dataset/12841247
- Typ: Syntetyczny (symulowane zachowania insiderów)
- Licencja: Badawcza (wymaga rejestracji)
Opis
Syntetyczny dataset stworzony przez CMU SEI do badań nad detekcją insider threats. Zawiera symulowane logi aktywności 4000 użytkowników przez 17 miesięcy, w tym zachowania 70 insiderów (złośliwych i niezamierzonych).
Dataset jest najczęściej używanym benchmarkiem w literaturze insider threat detection — obecny w zdecydowanej większości paperów w tym obszarze (Elbasheer 2025, Sarraf 2026, Yuan 2020).
Krytyczne ograniczenie: Od 2022 roku recenzenci tier-1 (USENIX Security, CCS, IEEE S&P) coraz częściej odrzucają papery używające CERT jako primary benchmark — zbyt mały (70 insiderów), zbyt syntetyczny, zbyt dobrze znany. Wyniki na CERT nie przekładają się na wiarygodność w realnych scenariuszach.
Charakterystyka
| Parametr | Wartość |
|---|---|
| Użytkownicy | ~4,000 |
| Insiderzy | 70 (złośliwi i niezamierzeni) |
| Okres | 17 miesięcy |
| Typ danych | Logi: email, http, plik, logon, USB, LDAP |
| Format | CSV |
Źródła danych w datasecie
- Email logs (nadawca, odbiorca, temat, rozmiar)
- HTTP logs (URL, kategoria, rozmiar)
- File logs (operacje na plikach, ścieżki)
- Logon/logoff logs (stacja robocza, czas)
- USB device logs (podłączenie/odłączenie)
- LDAP (dane pracownika: rola, dział, manager)
Typy insiderów (wersja 6.2)
- Malicious: celowe wycieki danych, sabotaż
- Negligent: przypadkowe naruszenia polityk
Ograniczenia
- Dane syntetyczne — zachowania insiderów są “zbyt czyste” (brak szumu z realnego środowiska)
- Mała liczba insiderów (70) → overfitting ryzyko
- Brak danych z nowoczesnych narzędzi (Slack, GitHub, Jira, cloud)
- Nie zawiera workplace productivity telemetry (tylko sieć + endpointy)
Używany w publikacjach
- Elbasheer & Akinfaderin (2025) — Transformer Encoders, F1=96.38%
- Sarraf (2026) — AdaBoost, AUC=0.98
- Yuan & Wu (2020) — DL survey, wymienia CERT jako dominujący benchmark
Alternatywny dataset (rekomendowany dla tier-1)
- LANL Unified Host and Network: https://csr.lanl.gov/data/cyber1/ — 15M eventów, 12K użytkowników, 58 dni realnych logów autentykacji Microsoft