Palin Keystroke Dataset
Informacje podstawowe
- Nazwa: Palin et al. Keystroke Dataset
- Alias: Aalto University Mobile Keystroke Dataset
- Dziedzina: Biometrics, Security, Mobile
- Typ: Time-series, Keystroke Dynamics Data, Mobile Touchscreen
Źródło
- URL: Dostępne poprzez MobileHCI’19 - ACM International Conference on Human-Computer Interaction with Mobile Devices and Services
- Paper: Palin, K. et al. - “How do people type on mobile devices? observations from a study with 37,000 volunteers”
- Organizacja: Aalto University, Helsinki
- Rok: 2019
Charakterystyka
- Rozmiar: 63+ milionów klawiszy z 60,000 uczestników (z 260,000 którzy rozpoczęli)
- Wielkość pliku: Ponad 4GB
- Typ urządzenia: Ekrany dotykowe (touchscreen) - wirtualne klawiatury na urządzeniach mobilnych
- Typ sceneria: Wolny tekst (free-text) - uczestnicy memoryzują i pisują angielskie zdania
- Liczba sesji: Minimum 15 sesji na uczestnika (tylko 23% z 260K ukończyło pełny test)
- Źródła zdań: Enron mobile email i Gigaword Newswire corpus
- Długość zdania: 3-70 znaków (ale mogą być dłuższe z błędami)
- Format: Press/Release event timings (millisecond resolution)
- Licencja: Badawcza - dostępne do badań akademickich
Opis
Palin et al. dataset to największy publicznie dostępny zbiór danych dotyczący dynamiki pisania na urządzeniach mobilnych. Originalnie zebrano dane od 260,000 uczestników, ale tylko 60,000 ukończyło minimum 15 sesji, co czyni ten podzbiór porównaniem z desktop’owymi zbiorami danych. Dane zostały zebrane poprzez online’ową aplikację, w której uczestnicy pisali angielskie zdania na ekranach dotykowych swoich urządzeń mobilnych.
Cechy demograficzne (ze wszystkich 260K):
- Tylko 31% ukończyło kurs pisania (w porównaniu do 72% w Dhakal dataset)
- Uczestnicy z 163 krajów
- 68% ma angielski jako język ojczysty
Specyfika mobilna:
- Urządzenia nie są stacjonarne - mogą być używane w różnych pozycjach (siedząc, stojąc, idąc)
- Zmienne warunki środowiskowe wpływają na wydajność
- Cechy czasowe są bardziej zmienne niż na klawiszach fizycznych
Zastosowania
- Uwierzytelnianie biometryczne na urządzeniach mobilnych w dużej skali
- Badania dynamiki pisania w scenariuszach mobile
- Trening modeli deep learning do rozpoznawania użytkowników na mobilach
- Ocena wpływu urządzenia na wydajność systemów biometrycznych
- Badanie cross-device interoperability
- Benchmarking algorytmów keystroke dynamics dla touchscreens
- Analiza wpływu pozycji ciała na dynamikę pisania
Używany w publikacjach
- [acien-typenet-keystroke-2021] - Główny dataset do trenowania TypeNet na scenarii mobile (30,000 użytkowników do trenowania, 30,000 do testowania)
Benchmarki
| Model | Urządzenie | Metric | EER (%) | Rok | Publikacja |
|---|---|---|---|---|---|
| TypeNet (Softmax) | Mobile | EER | 12.3 | 2021 | Acien et al. |
| TypeNet (Contrastive) | Mobile | EER | 10.0 | 2021 | Acien et al. |
| TypeNet (Triplet) | Mobile | EER | 6.3 | 2021 | Acien et al. |
| CNN+RNN | Mobile | EER | 12.2 | 2019 | Lu et al. |
| POHMM | Mobile | EER | 29.2 | 2018 | Monaco & Tappert |
Uwagi
- Dataset jest bardziej wyzywający niż wersja desktop ze względu na zmienne warunki
- Nie wszystkie próbki zawierają równą liczbę sesji (dlatego zwykle używa się podzbioru 60K z 15+ sesjami)
- Zawiera cechy czasowe z wirtualnych klawiatur na ekranach dotykowych
- Zmienność wewnątrz-osobnika jest wyższa niż na klawiszach fizycznych
- Możliwość analizy wpływu pozycji ciała na wydajność
- Mniej badań niż na wersji desktop ze względu na niszowy charakter
- Rekomendowane do badań nad biometrią mobilną i real-world deployment scenarios
Tagi
dataset keystroke-dynamics biometrics large-scale free-text mobile touchscreen authentication