CERT Insider Threat Dataset

Metadane

Opis

Syntetyczny dataset stworzony przez CMU SEI do badań nad detekcją insider threats. Zawiera symulowane logi aktywności 4000 użytkowników przez 17 miesięcy, w tym zachowania 70 insiderów (złośliwych i niezamierzonych).

Dataset jest najczęściej używanym benchmarkiem w literaturze insider threat detection — obecny w zdecydowanej większości paperów w tym obszarze (Elbasheer 2025, Sarraf 2026, Yuan 2020).

Krytyczne ograniczenie: Od 2022 roku recenzenci tier-1 (USENIX Security, CCS, IEEE S&P) coraz częściej odrzucają papery używające CERT jako primary benchmark — zbyt mały (70 insiderów), zbyt syntetyczny, zbyt dobrze znany. Wyniki na CERT nie przekładają się na wiarygodność w realnych scenariuszach.

Charakterystyka

ParametrWartość
Użytkownicy~4,000
Insiderzy70 (złośliwi i niezamierzeni)
Okres17 miesięcy
Typ danychLogi: email, http, plik, logon, USB, LDAP
FormatCSV

Źródła danych w datasecie

  • Email logs (nadawca, odbiorca, temat, rozmiar)
  • HTTP logs (URL, kategoria, rozmiar)
  • File logs (operacje na plikach, ścieżki)
  • Logon/logoff logs (stacja robocza, czas)
  • USB device logs (podłączenie/odłączenie)
  • LDAP (dane pracownika: rola, dział, manager)

Typy insiderów (wersja 6.2)

  • Malicious: celowe wycieki danych, sabotaż
  • Negligent: przypadkowe naruszenia polityk

Ograniczenia

  • Dane syntetyczne — zachowania insiderów są “zbyt czyste” (brak szumu z realnego środowiska)
  • Mała liczba insiderów (70) → overfitting ryzyko
  • Brak danych z nowoczesnych narzędzi (Slack, GitHub, Jira, cloud)
  • Nie zawiera workplace productivity telemetry (tylko sieć + endpointy)

Używany w publikacjach

Alternatywny dataset (rekomendowany dla tier-1)