Buffalo Keystroke Dataset
Informacje podstawowe
- Nazwa: Buffalo Keystroke Dataset
- Alias: SUNY Buffalo Shared Keystroke Dataset
- Dziedzina: Biometrics, Security
- Typ: Time-series, Keystroke Dynamics Data
Źródło
- URL: Dostępne poprzez IEEE International Workshop on Information Forensics and Security (WIFS)
- Paper: Sun, Y., Ceker, H., Upadhyaya, S. - “Shared keystroke dataset for continuous authentication”
- Organizacja: SUNY Buffalo (State University of New York at Buffalo), Cybersecurity Lab
- Rok: 2016
Charakterystyka
- Rozmiar: 148 użytkowników z 3 sesjami
- Typ urządzenia: Klawiatury fizyczne (desktop)
- Typ sceneria: Mieszana - zawiera zarówno fixed-text (przepisywanie predefiniowanego tekstu) jak i free-text (odpowiadanie na pytania)
- Czas trwania: 28 dni między sesjami
- Liczba sesji: 3 sesje na uczestnika
- Każda sesja: 2 zadania
- Zadanie 1: Przepisanie predefiniowanego tekstu (fixed-text)
- Zadanie 2: Odpowiadanie na pytania otwarte (free-text)
- Format: Press/Release event timings
- Licencja: Badawcza
Opis
Buffalo dataset to mniejszy ale dobrze kontrolowany zbiór danych zawierający zarówno fixed-text jak i free-text sekwencje keystroke. Unikatową cechą jest czasowe rozdzielenie między sesjami (28 dni), co pozwala badać stabilność biometryki dinamiki pisania w czasie. Dataset zawiera zarówno kontrolowany scenariusz (przepisywanie tekstu) jak i naturalny scenariusz (odpowiadanie na pytania).
Cechy:
- Mała populacja (148 użytkowników) - ale dobrze kontrolowana
- Długi okres między sesjami (28 dni) - pozwala badać zmianę behawioralnych cech
- Dwa scenariusze w ramach jednego datasetu
- Przydatny do oceny stabilności authentication
Zastosowania
- Badania continuous authentication w scenariuszach free-text
- Ocena zmian behawioralnych w czasie
- Benchmarking algorytmów na danych controllowanych
- Test generalizacji cross-database (wykorzystywany do testowania modeli trenowanych na Dhakal)
- Badanie wpływu czasu na wydajność (temporal stability)
- Łączenie fixed-text i free-text scenariuszy
Używany w publikacjach
- [acien-typenet-keystroke-2021] - Używany do oceny generalizacji TypeNet (testowanie bez retrainingu na scenariuszu free-text i transcribed)
Benchmarki
| Model | Scenariusz | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|---|
| TypeNet (Triplet, bez retrainingu) | Free | EER | 7.6% | 2021 | Acien et al. |
| TypeNet (Triplet, bez retrainingu) | Transcribed | EER | 9.5% | 2021 | Acien et al. |
| Digraphs [14] | Desktop | EER | ~5% | 2016 | Ceker & Upadhyaya |
| CNN+RNN | Desktop | EER | - | 2019 | Lu et al. |
Uwagi
- Mniejszy dataset niż Dhakal/Palin - więc mniej szumu w wynikach ale mniej generalizacji
- Buffalo free-text scenariusz jest bardziej wyzywający niż transcribed
- TypeNet wykazuje dobrą generalizację na Buffalo w porównaniu do Clarkson II (7.6% vs 26.8%)
- Różnica między Buffalo free (7.6%) a transcribed (9.5%) sugeruje pewną rolę zawartości tekstu
- Dataset jest użyteczny do łączenia badań fixed-text i free-text
- Kontrolowana natura danych (3 sesje zamiast 15) wymaga mniejszej liczby próbek
- Przydatny do badań nad temporal stability - dane zebrane z interwałem 28 dni
- Możliwość porównania wydajności w funkcji czasu między pierwszą a trzecią sesją
Tagi
dataset keystroke-dynamics biometrics free-text fixed-text desktop controlled temporal-stability