Buffalo Keystroke Dataset

Informacje podstawowe

  • Nazwa: Buffalo Keystroke Dataset
  • Alias: SUNY Buffalo Shared Keystroke Dataset
  • Dziedzina: Biometrics, Security
  • Typ: Time-series, Keystroke Dynamics Data

Źródło

  • URL: Dostępne poprzez IEEE International Workshop on Information Forensics and Security (WIFS)
  • Paper: Sun, Y., Ceker, H., Upadhyaya, S. - “Shared keystroke dataset for continuous authentication”
  • Organizacja: SUNY Buffalo (State University of New York at Buffalo), Cybersecurity Lab
  • Rok: 2016

Charakterystyka

  • Rozmiar: 148 użytkowników z 3 sesjami
  • Typ urządzenia: Klawiatury fizyczne (desktop)
  • Typ sceneria: Mieszana - zawiera zarówno fixed-text (przepisywanie predefiniowanego tekstu) jak i free-text (odpowiadanie na pytania)
  • Czas trwania: 28 dni między sesjami
  • Liczba sesji: 3 sesje na uczestnika
  • Każda sesja: 2 zadania
    • Zadanie 1: Przepisanie predefiniowanego tekstu (fixed-text)
    • Zadanie 2: Odpowiadanie na pytania otwarte (free-text)
  • Format: Press/Release event timings
  • Licencja: Badawcza

Opis

Buffalo dataset to mniejszy ale dobrze kontrolowany zbiór danych zawierający zarówno fixed-text jak i free-text sekwencje keystroke. Unikatową cechą jest czasowe rozdzielenie między sesjami (28 dni), co pozwala badać stabilność biometryki dinamiki pisania w czasie. Dataset zawiera zarówno kontrolowany scenariusz (przepisywanie tekstu) jak i naturalny scenariusz (odpowiadanie na pytania).

Cechy:

  • Mała populacja (148 użytkowników) - ale dobrze kontrolowana
  • Długi okres między sesjami (28 dni) - pozwala badać zmianę behawioralnych cech
  • Dwa scenariusze w ramach jednego datasetu
  • Przydatny do oceny stabilności authentication

Zastosowania

  • Badania continuous authentication w scenariuszach free-text
  • Ocena zmian behawioralnych w czasie
  • Benchmarking algorytmów na danych controllowanych
  • Test generalizacji cross-database (wykorzystywany do testowania modeli trenowanych na Dhakal)
  • Badanie wpływu czasu na wydajność (temporal stability)
  • Łączenie fixed-text i free-text scenariuszy

Używany w publikacjach

Benchmarki

ModelScenariuszMetricScoreRokPublikacja
TypeNet (Triplet, bez retrainingu)FreeEER7.6%2021Acien et al.
TypeNet (Triplet, bez retrainingu)TranscribedEER9.5%2021Acien et al.
Digraphs [14]DesktopEER~5%2016Ceker & Upadhyaya
CNN+RNNDesktopEER-2019Lu et al.

Uwagi

  • Mniejszy dataset niż Dhakal/Palin - więc mniej szumu w wynikach ale mniej generalizacji
  • Buffalo free-text scenariusz jest bardziej wyzywający niż transcribed
  • TypeNet wykazuje dobrą generalizację na Buffalo w porównaniu do Clarkson II (7.6% vs 26.8%)
  • Różnica między Buffalo free (7.6%) a transcribed (9.5%) sugeruje pewną rolę zawartości tekstu
  • Dataset jest użyteczny do łączenia badań fixed-text i free-text
  • Kontrolowana natura danych (3 sesje zamiast 15) wymaga mniejszej liczby próbek
  • Przydatny do badań nad temporal stability - dane zebrane z interwałem 28 dni
  • Możliwość porównania wydajności w funkcji czasu między pierwszą a trzecią sesją

Tagi

dataset keystroke-dynamics biometrics free-text fixed-text desktop controlled temporal-stability