CERT Insider Threat Dataset

Metadane

Źródło: Carnegie Mellon University Software Engineering Institute (CMU SEI)
Wersja: v6.2 (najnowsza)
URL: https://kilthub.cmu.edu/articles/dataset/Insider_Threat_Test_Dataset/12841247
Typ: Syntetyczny (symulowane zachowania insiderów)
Licencja: Badawcza (wymaga rejestracji)

Opis

Syntetyczny dataset stworzony przez CMU SEI do badań nad detekcją insider threats. Zawiera symulowane logi aktywności 4000 użytkowników przez 17 miesięcy, w tym zachowania 70 insiderów (złośliwych i niezamierzonych).

Dataset jest najczęściej używanym benchmarkiem w literaturze insider threat detection — obecny w zdecydowanej większości paperów w tym obszarze (Elbasheer 2025, Sarraf 2026, Yuan 2020).

Krytyczne ograniczenie: Od 2022 roku recenzenci tier-1 (USENIX Security, CCS, IEEE S&P) coraz częściej odrzucają papery używające CERT jako primary benchmark — zbyt mały (70 insiderów), zbyt syntetyczny, zbyt dobrze znany. Wyniki na CERT nie przekładają się na wiarygodność w realnych scenariuszach.

Charakterystyka

Parametr	Wartość
Użytkownicy	~4,000
Insiderzy	70 (złośliwi i niezamierzeni)
Okres	17 miesięcy
Typ danych	Logi: email, http, plik, logon, USB, LDAP
Format	CSV

Źródła danych w datasecie

Email logs (nadawca, odbiorca, temat, rozmiar)
HTTP logs (URL, kategoria, rozmiar)
File logs (operacje na plikach, ścieżki)
Logon/logoff logs (stacja robocza, czas)
USB device logs (podłączenie/odłączenie)
LDAP (dane pracownika: rola, dział, manager)

Typy insiderów (wersja 6.2)

Malicious: celowe wycieki danych, sabotaż
Negligent: przypadkowe naruszenia polityk

Ograniczenia

Dane syntetyczne — zachowania insiderów są “zbyt czyste” (brak szumu z realnego środowiska)
Mała liczba insiderów (70) → overfitting ryzyko
Brak danych z nowoczesnych narzędzi (Slack, GitHub, Jira, cloud)
Nie zawiera workplace productivity telemetry (tylko sieć + endpointy)

Używany w publikacjach

Elbasheer & Akinfaderin (2025) — Transformer Encoders, F1=96.38%
Sarraf (2026) — AdaBoost, AUC=0.98
Yuan & Wu (2020) — DL survey, wymienia CERT jako dominujący benchmark

Alternatywny dataset (rekomendowany dla tier-1)

LANL Unified Host and Network: https://csr.lanl.gov/data/cyber1/ — 15M eventów, 12K użytkowników, 58 dni realnych logów autentykacji Microsoft

Research

Przeglądaj

CERT Insider Threat Dataset

CERT Insider Threat Dataset

Metadane

Opis

Charakterystyka

Źródła danych w datasecie

Typy insiderów (wersja 6.2)

Ograniczenia

Używany w publikacjach

Alternatywny dataset (rekomendowany dla tier-1)

Graf

Spis treści

Odnośniki zwrotne