Pobierz PDF

TypeNet: Deep Learning Keystroke Biometrics

Metadane

Autorzy: Alejandro Acien, Aythami Morales, John V. Monaco, Ruben Vera-Rodriguez, Julian Fierrez
Rok: 2021
Źródło: Journal of LaTeX Class Files, Vol. 14, No. 8, February 2021
DOI/Link: arXiv:2101.05570v3 [cs.CV]
Status: read
Kategoria: Machine Learning, Biometrics
Tagi: keystroke-dynamics deep-learning biometrics lstm authentication large-scale behavioral-biometrics

Streszczenie

TypeNet to system biometryczny oparty na sieciach neuronowych LSTM do uwierzytelniania użytkowników na podstawie dynamiki pisania tekstów wolnych. Publikacja prezentuje wyniki nauki głębokich sieci rekurencyjnych wytrenowanych na dużych zbiorach danych (136 mln klawiszy od 168 tys. użytkowników na klawiaturach fizycznych i 63 mln klawiszy od 60 tys. użytkowników na ekranach dotykowych). Autorzy badają trzy podejścia oparte na różnych funkcjach straty (softmax, contrastive, triplet loss) i demonstrują skalowanie systemu do 100 tys. testowych użytkowników. TypeNet osiąga najnowocześniejsze wyniki z współczynnikami błędu (EER) na poziomie 2,2% dla klawiatur fizycznych i 9,2% dla ekranów dotykowych, znacznie przewyższając wcześniejsze podejścia.

Kluczową innowacją jest możliwość generowania reprezentacji cech (embedding) bez konieczności retrainingu modelu przy dodawaniu nowych użytkowników, co czyni system łatwo skalowalnym. Badania obejmują również analizę zależności od tekstu wejściowego, interoperacyjności między urządzeniami oraz ocenę identyfikacji użytkowników w scenariuszach kryminalistycznych.

Kluczowe Wnioski

Triplet loss funkcja osiąga najlepsze wyniki, szczególnie w scenariuszach z wieloma użytkownikami ale niewielką liczbą próbek do rejestracji
Sekwencje dłuższe niż 70 klawiszy nie przynoszą znaczącej poprawy wydajności w scenariuszu biometryki dynamiki pisania wolnego tekstu
Zwiększenie liczby sekwencji rejestracji (z 1 do 10) daje około 50% względną redukcję błędu
System pozostaje wydajny przy skalowaniu do 100 tys. użytkowników testowych (desktop) z marginalnym wzrostem błędu
Modele trenowane na konkretnym urządzeniu wykazują znacznie gorsze wyniki przy testowaniu na innym typie urządzenia, co sugeruje potrzebę modeli specyficznych dla każdego urządzenia
W scenariuszu na komputerze stacjonarnym model jest niezależny od tekstu wejściowego, podczas gdy na urządzeniach mobilnych wykazuje zależność od zawartości tekstowej
Identyfikacja użytkowników jest możliwa z redukcją listy kandydatów o 90% przy utrzymaniu 100% dokładności (Rank-100 z 1000 użytkowników)

Metodologia

Badania wykorzystują cztery publiczne bazy danych dotyczące dynamiki pisania:

Dhakal et al. dataset - 5GB danych z klawiatur fizycznych od 168 tys. uczestników
Palin et al. dataset - 4GB danych z ekranów dotykowych od 260 tys. uczestników (60 tys. ukończyło 15 sesji)
Clarkson II dataset - 103 użytkowników, całkowicie niekontrolowana sceneria przez 2,5 roku
Buffalo dataset - 148 użytkowników z 3 sesjami na klawiaturach fizycznych

Przepływu przetwarzania:

Ekstrakcja cech: 4 cechy czasowe (Hold Latency, Inter-key Latency, Press Latency, Release Latency) + keycodes (5 wymiarów)
Normalizacja danych
Architektura LSTM: 2 warstwy po 128 jednostek z batch normalizacją, dropout 0,5, parametry maskowania
Trzy strategie trenowania: Softmax loss (klasyfikacja), Contrastive loss (metryka uczenia z parami), Triplet loss (metryka uczenia z trójkami)
Optymalizator Adam z learning rate 0,05, trenowanie przez 200 epok
Protokół testowania: uwierzytelnianie (5 sekwencji testowych, k-1 impostorów) i identyfikacja (lista rankingowa)

Główne Koncepcje

Keystroke Dynamics (Dynamika Pisania): Behawioralna cecha biometryczna oparta na wyjątkowych wzorcach pisania każdej osoby
Free-text Keystroke Biometrics: Uwierzytelnianie na podstawie dowolnie pisanego tekstu (w przeciwieństwie do fixed-text gdzie tekst jest z góry określony)
LSTM (Long Short-Term Memory): Architektura sieci neuronowej zdolna do przetwarzania sekwencji danych czasowych
Embedding Space: Reprezentacja cech uczenia się, gdzie sekwencje od tego samego użytkownika znajdują się blisko siebie
Contrastive Loss: Funkcja straty oparta na parach sekwencji (genuine/impostor), minimalizuje odległość dla genuine, maksymalizuje dla impostorów
Triplet Loss: Funkcja straty uczenia się z metryki oparta na trzech próbkach (anchor, positive, negative) do optymalizacji embeddings
Equal Error Rate (EER): Punkt gdzie False Acceptance Rate (FAR) równa się False Rejection Rate (FRR)
Levenshtein Distance: Miara edycji tekstowej do analizy zależności modelu od zawartości tekstu

Wyniki

Uwierzytelnianie na klawiaturze fizycznej (desktop):

Najlepsze wyniki z Triplet loss: EER = 1,2% (G=10, M=70)
One-shot (G=1): EER = 4,5%
Skalowanie do 100 tys. użytkowników: wzrost EER o zaledwie 5% względnie (z 2,2% do ~2,3%)
Porównanie SOTA: TypeNet (Triplet) EER=2,2% vs POHMM 24,7%, Digraphs 43,1%, CNN+RNN 13,7%

Uwierzytelnianie na ekranie dotykowym (mobile):

Najlepsze wyniki: EER = 6,3% (G=10, M=100) z Triplet loss
One-shot: EER = 10,7%
Skalowanie do 30 tys. użytkowników: stabilna wydajność
Porównanie SOTA: TypeNet (Triplet) EER=9,2% vs POHMM 29,2%, CNN+RNN 12,2%

Interoperacyjność między urządzeniami (cross-database):

Desktop model testowany na danych mobilnych: EER wzrasta z 2,2% do 13,7%
Mobile model testowany na danych desktop: EER wzrasta z 9,2% do 21,4%
Mixture model (trenowany na obu): lepszy niż single-device ale znacznie gorszy niż native

Identyfikacja użytkowników (B=1000):

Rank-1 (Triplet): 67,4% desktop, 25,5% mobile
Rank-50: 99,8% desktop, 87,5% mobile
Rank-100: 99,9% desktop, 94,2% mobile
Z pre-screeningiem geograficznym: Rank-1 wzrasta do 84% desktop

Generalizacja na inne bazy danych:

Buffalo (free-text): 7,6% EER
Buffalo (transcribed): 9,5% EER
Clarkson II (wszystkie dane): 17,2% EER
Wyniki bez retrainingu wykazują potencjał generalizacji na podobne sceneria

Przydatne Cytaty

“We present the first evidence in the literature of competitive performance of free-text keystroke biometric authentication at large scale (up to 100,000 test subjects).” (str. 2)

“TypeNet learns a feature representation of a keystroke sequence without the need for retraining if new subjects are added to the database, as commonly happens in many biometric systems. Therefore, TypeNet is easily scalable.” (str. 2)

“Our results range from 17.2% to 1.2% EER in desktop and from 17.7% to 6.3% EER in mobile scenarios depending on the amount of subject data enrolled.” (str. 11)

“These results suggest that our approach achieves error rates close to those achieved by the state-of-the-art fixed-text algorithms, within ~5% of error rate even when the enrollment data is scarce.” (str. 11)

“The Triplet loss function enables learning from positive and negative comparisons at the same time” (str. 6)

Datasety

Dhakal et al. dataset - 168,000 użytkowników, 136M+ klawiszy, klawiatury fizyczne
Palin et al. dataset - 60,000 użytkowników (z 260K), 63M+ klawiszy, ekrany dotykowe
Clarkson II dataset - 103 użytkowników, 12,9M klawiszy, klawiatury fizyczne, dane całkowicie niekontrolowane
Buffalo dataset - 148 użytkowników, klawiatury fizyczne, dane niekontrolowane

Powiązane Tematy

Biometria behawioralna (behavioral biometrics)
Sieci neuronowe głębokie (deep learning)
Uczenie się metryki (metric learning)
Siamese networks i triplet loss
Biometria behawioralna na urządzeniach mobilnych
Bezpieczeństwo uwierzytelniania w dużej skali
Detekcja botów (bot detection)
Analiza zachowania użytkownika
Identyfikacja kryminalistyczna
Transfer learning w biometrii

Research

Przeglądaj

TypeNet: Deep Learning Keystroke Biometrics

TypeNet: Deep Learning Keystroke Biometrics

Metadane

Streszczenie

Kluczowe Wnioski

Metodologia

Główne Koncepcje

Wyniki

Przydatne Cytaty

Datasety

Powiązane Tematy

Notatki