Dhakal Keystroke Dataset
Informacje podstawowe
- Nazwa: Dhakal et al. Keystroke Dataset
- Alias: Aalto University Desktop Keystroke Dataset
- Dziedzina: Biometrics, Security
- Typ: Time-series, Keystroke Dynamics Data
Źródło
- URL: Dostępne poprzez IJCAI CHI Conference na temat Human Factors in Computing Systems
- Paper: Dhakal et al. - “Observations on typing from 136 million keystrokes”
- Organizacja: Aalto University, Helsinki
- Rok: 2018
Charakterystyka
- Rozmiar: 136+ milionów klawiszy z 168,000 uczestników
- Wielkość pliku: Ponad 5GB
- Typ urządzenia: Klawiatury fizyczne (desktop/laptop)
- Typ sceneria: Wolny tekst (free-text) - uczestnicy memoryzują i pisują angielskie zdania
- Liczba sesji: 15 sesji na uczestnika
- Źródła zdań: Enron mobile email i Gigaword Newswire corpus
- Długość zdania: 3-70 znaków (ale mogą być dłuższe z błędami)
- Format: Press/Release event timings (millisecond resolution)
- Licencja: Badawcza - dostępne do badań akademickich
Opis
Dhakal et al. dataset to jedna z największych publicznie dostępnych baz danych dynamiki pisania. Dane zostały zebrane poprzez online’ową aplikację, w której uczestnicy zapamiętywali i pisali angielskie zdania z losowo wybranego zestawu 1,525 przykładów. Każdy uczestnik ukończył 15 sesji, z których każda stanowi jedno zdanie do przepisania. Zbiór danych jest całkowicie niekontrolowany - uczestnicy mogli uczestniczyć z dowolnego miejsca na świecie.
Cechy demograficzne:
- 72% uczestników ukończyło kurs pisania
- Uczestnicy z 218 krajów
- 85% ma angielski jako język ojczysty
Zastosowania
- Uwierzytelnianie biometryczne na dużą skalę (large-scale authentication)
- Badania dynamiki pisania w wolnym tekście
- Trening modeli deep learning do rozpoznawania użytkowników
- Ocena generalizacji systemów biometrycznych na dużych populacjach
- Badanie zależności scenerii od wydajności
- Benchmarking algorytmów keystroke dynamics
Używany w publikacjach
- [acien-typenet-keystroke-2021] - Główny dataset do trenowania TypeNet na scenarii desktop (68,000 użytkowników do trenowania, 100,000 do testowania)
Benchmarki
| Model | Urządzenie | Metric | EER (%) | Rok | Publikacja |
|---|---|---|---|---|---|
| TypeNet (Softmax) | Desktop | EER | 6.0 | 2021 | Acien et al. |
| TypeNet (Contrastive) | Desktop | EER | 3.9 | 2021 | Acien et al. |
| TypeNet (Triplet) | Desktop | EER | 1.2 | 2021 | Acien et al. |
| CNN+RNN | Desktop | EER | 13.7 | 2019 | Lu et al. |
| POHMM | Desktop | EER | 24.7 | 2018 | Monaco & Tappert |
Uwagi
- Dane dostępne po zaakceptowaniu warunków badawczych
- Zbiór jest wielokulturowy i międzynarodowy, co zbliża go do rzeczywistych scenariuszy
- Zawiera pełne informacje o czasach naciśnięcia i zwolnienia klawiszy
- Możliwość podziału na sekwencje o różnych długościach
- Zazwyczaj używane dla scenariuszy free-text keystroke authentication
- Należy zwrócić uwagę na zmienność wewnątrz-osobnika ze względu na warunki pisania
Tagi
dataset keystroke-dynamics biometrics large-scale free-text desktop authentication