Clarkson II Keystroke Dataset
Informacje podstawowe
- Nazwa: Clarkson II Keystroke Dataset
- Alias: Clarkson University Free-text Keystroke Dataset
- Dziedzina: Biometrics, Security
- Typ: Time-series, Keystroke Dynamics Data
Źródło
- URL: Dostępne poprzez IEEE/IAPR International Joint Conference on Biometrics (IJCB)
- Paper: Murphy, C. et al. - “Shared dataset on natural human-computer interaction to support continuous authentication research”
- Organizacja: Clarkson University, State University of New York (SUNY)
- Rok: 2017
Charakterystyka
- Rozmiar: 12.9 milionów klawiszy z 103 użytkowników
- Typ urządzenia: Klawiatury fizyczne (desktop)
- Typ sceneria: Całkowicie wolny tekst (fully free-text) - bez ograniczeń zawartości
- Czas trwania: 2.5 roku - zebrane w całkowicie niekontrolowanym środowisku
- Dane: Dzielone na sekwencje o długości 150 klawiszy
- Liczba sekwencji: Minimum 15 sekwencji na uczestnika (do testowania)
- Format: Press/Release event timings
- Licencja: Badawcza
Opis
Clarkson II dataset to jeden z najwcześniejszych dużych zbiorów danych dotyczących dynamiki pisania w scenarii wolnego tekstu. W przeciwieństwie do controlowanych eksperymentów, dane zostały zebrane w całkowicie naturalnym środowisku przez ponad 2 lata, co czyni go reprezentatywnym dla rzeczywistych warunków użytkowania. Uczestnicy pisali naturalnie bez żadnych ograniczeń na zawartość tekstową.
Unikalne cechy:
- Całkowicie niekontrolowana sceneria - bez sztucznych ograniczeń
- Długotrwały period zbierania danych (2.5 roku)
- Rzeczywiste warunki użytkowania
- Naturalnie różne długości tekstów
- Błędy pisania i poprawianie się naturalne
Zastosowania
- Badania generalizacji systemów keystroke dynamics
- Ocena wydajności w rzeczywistych scenariuszach (real-world)
- Benchmarking algorytmów na całkowicie wolnym tekście
- Badanie wpływu czasu na stabilność biometryki dynamiki pisania
- Evaluacja systemów przystosowanej autentykacji (continuous authentication)
- Test generalizacji cross-database (wykorzystywany do testowania modeli trenowanych na Dhakal)
Używany w publikacjach
- [acien-typenet-keystroke-2021] - Użyty do oceny generalizacji TypeNet (testowanie bez retrainingu, bez transfer learning)
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| TypeNet (Triplet, bez retrainingu) | EER | 26.8% | 2021 | Acien et al. |
| TypeNet (Triplet, wszystkie dane) | EER | 17.2% | 2021 | Acien et al. |
| Gunetti & Picardi | EER | 10.36% | 2005 | Murphy et al. |
| Random Forest | EER | 7.8% | 2020 | Ayotte et al. |
Uwagi
- Dataset jest znacznie bardziej wyzywający niż kontrolowane bazy danych
- Wyraźny spadek wydajności przy testowaniu modeli trenowanych na innych zbiorach (z 2.2% na desktop Dhakal do 26.8% na Clarkson II)
- Spadek wydajności wynika z całkowicie niekontrolowanej natury zbierania danych
- Znaczna zmienność wewnątrz-osobnika ze względu na naturalne warunki
- Dla porównania - Gunetti & Picardi osiągnął 10.36% EER trenując i testując na tym samym zbiorze (bazeline)
- Wskazuje na potrzebę transfer learning lub retrainingu przy wdrażaniu systemów w rzeczywistych warunkach
- Można osiągnąć lepsze wyniki (17.2%) używając wszystkich dostępnych danych zamiast zaproponowanego protokołu (15 sekwencji)
- Stanowi test rzeczywistej generalizacji - baza danych reprezentuje naturalne warunki użytkowania
Tagi
dataset keystroke-dynamics biometrics free-text desktop uncontrolled real-world generalization