Dhakal Keystroke Dataset

Informacje podstawowe

Nazwa: Dhakal et al. Keystroke Dataset
Alias: Aalto University Desktop Keystroke Dataset
Dziedzina: Biometrics, Security
Typ: Time-series, Keystroke Dynamics Data

Źródło

URL: Dostępne poprzez IJCAI CHI Conference na temat Human Factors in Computing Systems
Paper: Dhakal et al. - “Observations on typing from 136 million keystrokes”
Organizacja: Aalto University, Helsinki
Rok: 2018

Charakterystyka

Rozmiar: 136+ milionów klawiszy z 168,000 uczestników
Wielkość pliku: Ponad 5GB
Typ urządzenia: Klawiatury fizyczne (desktop/laptop)
Typ sceneria: Wolny tekst (free-text) - uczestnicy memoryzują i pisują angielskie zdania
Liczba sesji: 15 sesji na uczestnika
Źródła zdań: Enron mobile email i Gigaword Newswire corpus
Długość zdania: 3-70 znaków (ale mogą być dłuższe z błędami)
Format: Press/Release event timings (millisecond resolution)
Licencja: Badawcza - dostępne do badań akademickich

Opis

Dhakal et al. dataset to jedna z największych publicznie dostępnych baz danych dynamiki pisania. Dane zostały zebrane poprzez online’ową aplikację, w której uczestnicy zapamiętywali i pisali angielskie zdania z losowo wybranego zestawu 1,525 przykładów. Każdy uczestnik ukończył 15 sesji, z których każda stanowi jedno zdanie do przepisania. Zbiór danych jest całkowicie niekontrolowany - uczestnicy mogli uczestniczyć z dowolnego miejsca na świecie.

Cechy demograficzne:

72% uczestników ukończyło kurs pisania
Uczestnicy z 218 krajów
85% ma angielski jako język ojczysty

Zastosowania

Uwierzytelnianie biometryczne na dużą skalę (large-scale authentication)
Badania dynamiki pisania w wolnym tekście
Trening modeli deep learning do rozpoznawania użytkowników
Ocena generalizacji systemów biometrycznych na dużych populacjach
Badanie zależności scenerii od wydajności
Benchmarking algorytmów keystroke dynamics

Używany w publikacjach

[acien-typenet-keystroke-2021] - Główny dataset do trenowania TypeNet na scenarii desktop (68,000 użytkowników do trenowania, 100,000 do testowania)

Benchmarki

Model	Urządzenie	Metric	EER (%)	Rok	Publikacja
TypeNet (Softmax)	Desktop	EER	6.0	2021	Acien et al.
TypeNet (Contrastive)	Desktop	EER	3.9	2021	Acien et al.
TypeNet (Triplet)	Desktop	EER	1.2	2021	Acien et al.
CNN+RNN	Desktop	EER	13.7	2019	Lu et al.
POHMM	Desktop	EER	24.7	2018	Monaco & Tappert

Uwagi

Dane dostępne po zaakceptowaniu warunków badawczych
Zbiór jest wielokulturowy i międzynarodowy, co zbliża go do rzeczywistych scenariuszy
Zawiera pełne informacje o czasach naciśnięcia i zwolnienia klawiszy
Możliwość podziału na sekwencje o różnych długościach
Zazwyczaj używane dla scenariuszy free-text keystroke authentication
Należy zwrócić uwagę na zmienność wewnątrz-osobnika ze względu na warunki pisania

Tagi

dataset keystroke-dynamics biometrics large-scale free-text desktop authentication

Research

Przeglądaj

Dhakal Keystroke Dataset

Dhakal Keystroke Dataset

Informacje podstawowe

Źródło

Charakterystyka

Opis

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Tagi

Graf

Spis treści

Odnośniki zwrotne