Clarkson II Keystroke Dataset

Informacje podstawowe

  • Nazwa: Clarkson II Keystroke Dataset
  • Alias: Clarkson University Free-text Keystroke Dataset
  • Dziedzina: Biometrics, Security
  • Typ: Time-series, Keystroke Dynamics Data

Źródło

  • URL: Dostępne poprzez IEEE/IAPR International Joint Conference on Biometrics (IJCB)
  • Paper: Murphy, C. et al. - “Shared dataset on natural human-computer interaction to support continuous authentication research”
  • Organizacja: Clarkson University, State University of New York (SUNY)
  • Rok: 2017

Charakterystyka

  • Rozmiar: 12.9 milionów klawiszy z 103 użytkowników
  • Typ urządzenia: Klawiatury fizyczne (desktop)
  • Typ sceneria: Całkowicie wolny tekst (fully free-text) - bez ograniczeń zawartości
  • Czas trwania: 2.5 roku - zebrane w całkowicie niekontrolowanym środowisku
  • Dane: Dzielone na sekwencje o długości 150 klawiszy
  • Liczba sekwencji: Minimum 15 sekwencji na uczestnika (do testowania)
  • Format: Press/Release event timings
  • Licencja: Badawcza

Opis

Clarkson II dataset to jeden z najwcześniejszych dużych zbiorów danych dotyczących dynamiki pisania w scenarii wolnego tekstu. W przeciwieństwie do controlowanych eksperymentów, dane zostały zebrane w całkowicie naturalnym środowisku przez ponad 2 lata, co czyni go reprezentatywnym dla rzeczywistych warunków użytkowania. Uczestnicy pisali naturalnie bez żadnych ograniczeń na zawartość tekstową.

Unikalne cechy:

  • Całkowicie niekontrolowana sceneria - bez sztucznych ograniczeń
  • Długotrwały period zbierania danych (2.5 roku)
  • Rzeczywiste warunki użytkowania
  • Naturalnie różne długości tekstów
  • Błędy pisania i poprawianie się naturalne

Zastosowania

  • Badania generalizacji systemów keystroke dynamics
  • Ocena wydajności w rzeczywistych scenariuszach (real-world)
  • Benchmarking algorytmów na całkowicie wolnym tekście
  • Badanie wpływu czasu na stabilność biometryki dynamiki pisania
  • Evaluacja systemów przystosowanej autentykacji (continuous authentication)
  • Test generalizacji cross-database (wykorzystywany do testowania modeli trenowanych na Dhakal)

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
TypeNet (Triplet, bez retrainingu)EER26.8%2021Acien et al.
TypeNet (Triplet, wszystkie dane)EER17.2%2021Acien et al.
Gunetti & PicardiEER10.36%2005Murphy et al.
Random ForestEER7.8%2020Ayotte et al.

Uwagi

  • Dataset jest znacznie bardziej wyzywający niż kontrolowane bazy danych
  • Wyraźny spadek wydajności przy testowaniu modeli trenowanych na innych zbiorach (z 2.2% na desktop Dhakal do 26.8% na Clarkson II)
  • Spadek wydajności wynika z całkowicie niekontrolowanej natury zbierania danych
  • Znaczna zmienność wewnątrz-osobnika ze względu na naturalne warunki
  • Dla porównania - Gunetti & Picardi osiągnął 10.36% EER trenując i testując na tym samym zbiorze (bazeline)
  • Wskazuje na potrzebę transfer learning lub retrainingu przy wdrażaniu systemów w rzeczywistych warunkach
  • Można osiągnąć lepsze wyniki (17.2%) używając wszystkich dostępnych danych zamiast zaproponowanego protokołu (15 sekwencji)
  • Stanowi test rzeczywistej generalizacji - baza danych reprezentuje naturalne warunki użytkowania

Tagi

dataset keystroke-dynamics biometrics free-text desktop uncontrolled real-world generalization