Dhakal Keystroke Dataset

Informacje podstawowe

  • Nazwa: Dhakal et al. Keystroke Dataset
  • Alias: Aalto University Desktop Keystroke Dataset
  • Dziedzina: Biometrics, Security
  • Typ: Time-series, Keystroke Dynamics Data

Źródło

  • URL: Dostępne poprzez IJCAI CHI Conference na temat Human Factors in Computing Systems
  • Paper: Dhakal et al. - “Observations on typing from 136 million keystrokes”
  • Organizacja: Aalto University, Helsinki
  • Rok: 2018

Charakterystyka

  • Rozmiar: 136+ milionów klawiszy z 168,000 uczestników
  • Wielkość pliku: Ponad 5GB
  • Typ urządzenia: Klawiatury fizyczne (desktop/laptop)
  • Typ sceneria: Wolny tekst (free-text) - uczestnicy memoryzują i pisują angielskie zdania
  • Liczba sesji: 15 sesji na uczestnika
  • Źródła zdań: Enron mobile email i Gigaword Newswire corpus
  • Długość zdania: 3-70 znaków (ale mogą być dłuższe z błędami)
  • Format: Press/Release event timings (millisecond resolution)
  • Licencja: Badawcza - dostępne do badań akademickich

Opis

Dhakal et al. dataset to jedna z największych publicznie dostępnych baz danych dynamiki pisania. Dane zostały zebrane poprzez online’ową aplikację, w której uczestnicy zapamiętywali i pisali angielskie zdania z losowo wybranego zestawu 1,525 przykładów. Każdy uczestnik ukończył 15 sesji, z których każda stanowi jedno zdanie do przepisania. Zbiór danych jest całkowicie niekontrolowany - uczestnicy mogli uczestniczyć z dowolnego miejsca na świecie.

Cechy demograficzne:

  • 72% uczestników ukończyło kurs pisania
  • Uczestnicy z 218 krajów
  • 85% ma angielski jako język ojczysty

Zastosowania

  • Uwierzytelnianie biometryczne na dużą skalę (large-scale authentication)
  • Badania dynamiki pisania w wolnym tekście
  • Trening modeli deep learning do rozpoznawania użytkowników
  • Ocena generalizacji systemów biometrycznych na dużych populacjach
  • Badanie zależności scenerii od wydajności
  • Benchmarking algorytmów keystroke dynamics

Używany w publikacjach

  • [acien-typenet-keystroke-2021] - Główny dataset do trenowania TypeNet na scenarii desktop (68,000 użytkowników do trenowania, 100,000 do testowania)

Benchmarki

ModelUrządzenieMetricEER (%)RokPublikacja
TypeNet (Softmax)DesktopEER6.02021Acien et al.
TypeNet (Contrastive)DesktopEER3.92021Acien et al.
TypeNet (Triplet)DesktopEER1.22021Acien et al.
CNN+RNNDesktopEER13.72019Lu et al.
POHMMDesktopEER24.72018Monaco & Tappert

Uwagi

  • Dane dostępne po zaakceptowaniu warunków badawczych
  • Zbiór jest wielokulturowy i międzynarodowy, co zbliża go do rzeczywistych scenariuszy
  • Zawiera pełne informacje o czasach naciśnięcia i zwolnienia klawiszy
  • Możliwość podziału na sekwencje o różnych długościach
  • Zazwyczaj używane dla scenariuszy free-text keystroke authentication
  • Należy zwrócić uwagę na zmienność wewnątrz-osobnika ze względu na warunki pisania

Tagi

dataset keystroke-dynamics biometrics large-scale free-text desktop authentication