Clarkson II Keystroke Dataset

Informacje podstawowe

Nazwa: Clarkson II Keystroke Dataset
Alias: Clarkson University Free-text Keystroke Dataset
Dziedzina: Biometrics, Security
Typ: Time-series, Keystroke Dynamics Data

Źródło

URL: Dostępne poprzez IEEE/IAPR International Joint Conference on Biometrics (IJCB)
Paper: Murphy, C. et al. - “Shared dataset on natural human-computer interaction to support continuous authentication research”
Organizacja: Clarkson University, State University of New York (SUNY)
Rok: 2017

Charakterystyka

Rozmiar: 12.9 milionów klawiszy z 103 użytkowników
Typ urządzenia: Klawiatury fizyczne (desktop)
Typ sceneria: Całkowicie wolny tekst (fully free-text) - bez ograniczeń zawartości
Czas trwania: 2.5 roku - zebrane w całkowicie niekontrolowanym środowisku
Dane: Dzielone na sekwencje o długości 150 klawiszy
Liczba sekwencji: Minimum 15 sekwencji na uczestnika (do testowania)
Format: Press/Release event timings
Licencja: Badawcza

Opis

Clarkson II dataset to jeden z najwcześniejszych dużych zbiorów danych dotyczących dynamiki pisania w scenarii wolnego tekstu. W przeciwieństwie do controlowanych eksperymentów, dane zostały zebrane w całkowicie naturalnym środowisku przez ponad 2 lata, co czyni go reprezentatywnym dla rzeczywistych warunków użytkowania. Uczestnicy pisali naturalnie bez żadnych ograniczeń na zawartość tekstową.

Unikalne cechy:

Całkowicie niekontrolowana sceneria - bez sztucznych ograniczeń
Długotrwały period zbierania danych (2.5 roku)
Rzeczywiste warunki użytkowania
Naturalnie różne długości tekstów
Błędy pisania i poprawianie się naturalne

Zastosowania

Badania generalizacji systemów keystroke dynamics
Ocena wydajności w rzeczywistych scenariuszach (real-world)
Benchmarking algorytmów na całkowicie wolnym tekście
Badanie wpływu czasu na stabilność biometryki dynamiki pisania
Evaluacja systemów przystosowanej autentykacji (continuous authentication)
Test generalizacji cross-database (wykorzystywany do testowania modeli trenowanych na Dhakal)

Używany w publikacjach

[acien-typenet-keystroke-2021] - Użyty do oceny generalizacji TypeNet (testowanie bez retrainingu, bez transfer learning)

Benchmarki

Model	Metric	Score	Rok	Publikacja
TypeNet (Triplet, bez retrainingu)	EER	26.8%	2021	Acien et al.
TypeNet (Triplet, wszystkie dane)	EER	17.2%	2021	Acien et al.
Gunetti & Picardi	EER	10.36%	2005	Murphy et al.
Random Forest	EER	7.8%	2020	Ayotte et al.

Uwagi

Dataset jest znacznie bardziej wyzywający niż kontrolowane bazy danych
Wyraźny spadek wydajności przy testowaniu modeli trenowanych na innych zbiorach (z 2.2% na desktop Dhakal do 26.8% na Clarkson II)
Spadek wydajności wynika z całkowicie niekontrolowanej natury zbierania danych
Znaczna zmienność wewnątrz-osobnika ze względu na naturalne warunki
Dla porównania - Gunetti & Picardi osiągnął 10.36% EER trenując i testując na tym samym zbiorze (bazeline)
Wskazuje na potrzebę transfer learning lub retrainingu przy wdrażaniu systemów w rzeczywistych warunkach
Można osiągnąć lepsze wyniki (17.2%) używając wszystkich dostępnych danych zamiast zaproponowanego protokołu (15 sekwencji)
Stanowi test rzeczywistej generalizacji - baza danych reprezentuje naturalne warunki użytkowania

Tagi

dataset keystroke-dynamics biometrics free-text desktop uncontrolled real-world generalization

Research

Przeglądaj

Clarkson II Keystroke Dataset

Clarkson II Keystroke Dataset

Informacje podstawowe

Źródło

Charakterystyka

Opis

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Tagi

Graf

Spis treści

Odnośniki zwrotne