Pobierz PDF

TypeNet: Deep Learning Keystroke Biometrics

Metadane

Streszczenie

TypeNet to system biometryczny oparty na sieciach neuronowych LSTM do uwierzytelniania użytkowników na podstawie dynamiki pisania tekstów wolnych. Publikacja prezentuje wyniki nauki głębokich sieci rekurencyjnych wytrenowanych na dużych zbiorach danych (136 mln klawiszy od 168 tys. użytkowników na klawiaturach fizycznych i 63 mln klawiszy od 60 tys. użytkowników na ekranach dotykowych). Autorzy badają trzy podejścia oparte na różnych funkcjach straty (softmax, contrastive, triplet loss) i demonstrują skalowanie systemu do 100 tys. testowych użytkowników. TypeNet osiąga najnowocześniejsze wyniki z współczynnikami błędu (EER) na poziomie 2,2% dla klawiatur fizycznych i 9,2% dla ekranów dotykowych, znacznie przewyższając wcześniejsze podejścia.

Kluczową innowacją jest możliwość generowania reprezentacji cech (embedding) bez konieczności retrainingu modelu przy dodawaniu nowych użytkowników, co czyni system łatwo skalowalnym. Badania obejmują również analizę zależności od tekstu wejściowego, interoperacyjności między urządzeniami oraz ocenę identyfikacji użytkowników w scenariuszach kryminalistycznych.

Kluczowe Wnioski

  • Triplet loss funkcja osiąga najlepsze wyniki, szczególnie w scenariuszach z wieloma użytkownikami ale niewielką liczbą próbek do rejestracji
  • Sekwencje dłuższe niż 70 klawiszy nie przynoszą znaczącej poprawy wydajności w scenariuszu biometryki dynamiki pisania wolnego tekstu
  • Zwiększenie liczby sekwencji rejestracji (z 1 do 10) daje około 50% względną redukcję błędu
  • System pozostaje wydajny przy skalowaniu do 100 tys. użytkowników testowych (desktop) z marginalnym wzrostem błędu
  • Modele trenowane na konkretnym urządzeniu wykazują znacznie gorsze wyniki przy testowaniu na innym typie urządzenia, co sugeruje potrzebę modeli specyficznych dla każdego urządzenia
  • W scenariuszu na komputerze stacjonarnym model jest niezależny od tekstu wejściowego, podczas gdy na urządzeniach mobilnych wykazuje zależność od zawartości tekstowej
  • Identyfikacja użytkowników jest możliwa z redukcją listy kandydatów o 90% przy utrzymaniu 100% dokładności (Rank-100 z 1000 użytkowników)

Metodologia

Badania wykorzystują cztery publiczne bazy danych dotyczące dynamiki pisania:

  1. Dhakal et al. dataset - 5GB danych z klawiatur fizycznych od 168 tys. uczestników
  2. Palin et al. dataset - 4GB danych z ekranów dotykowych od 260 tys. uczestników (60 tys. ukończyło 15 sesji)
  3. Clarkson II dataset - 103 użytkowników, całkowicie niekontrolowana sceneria przez 2,5 roku
  4. Buffalo dataset - 148 użytkowników z 3 sesjami na klawiaturach fizycznych

Przepływu przetwarzania:

  1. Ekstrakcja cech: 4 cechy czasowe (Hold Latency, Inter-key Latency, Press Latency, Release Latency) + keycodes (5 wymiarów)
  2. Normalizacja danych
  3. Architektura LSTM: 2 warstwy po 128 jednostek z batch normalizacją, dropout 0,5, parametry maskowania
  4. Trzy strategie trenowania: Softmax loss (klasyfikacja), Contrastive loss (metryka uczenia z parami), Triplet loss (metryka uczenia z trójkami)
  5. Optymalizator Adam z learning rate 0,05, trenowanie przez 200 epok
  6. Protokół testowania: uwierzytelnianie (5 sekwencji testowych, k-1 impostorów) i identyfikacja (lista rankingowa)

Główne Koncepcje

  • Keystroke Dynamics (Dynamika Pisania): Behawioralna cecha biometryczna oparta na wyjątkowych wzorcach pisania każdej osoby
  • Free-text Keystroke Biometrics: Uwierzytelnianie na podstawie dowolnie pisanego tekstu (w przeciwieństwie do fixed-text gdzie tekst jest z góry określony)
  • LSTM (Long Short-Term Memory): Architektura sieci neuronowej zdolna do przetwarzania sekwencji danych czasowych
  • Embedding Space: Reprezentacja cech uczenia się, gdzie sekwencje od tego samego użytkownika znajdują się blisko siebie
  • Contrastive Loss: Funkcja straty oparta na parach sekwencji (genuine/impostor), minimalizuje odległość dla genuine, maksymalizuje dla impostorów
  • Triplet Loss: Funkcja straty uczenia się z metryki oparta na trzech próbkach (anchor, positive, negative) do optymalizacji embeddings
  • Equal Error Rate (EER): Punkt gdzie False Acceptance Rate (FAR) równa się False Rejection Rate (FRR)
  • Levenshtein Distance: Miara edycji tekstowej do analizy zależności modelu od zawartości tekstu

Wyniki

Uwierzytelnianie na klawiaturze fizycznej (desktop):

  • Najlepsze wyniki z Triplet loss: EER = 1,2% (G=10, M=70)
  • One-shot (G=1): EER = 4,5%
  • Skalowanie do 100 tys. użytkowników: wzrost EER o zaledwie 5% względnie (z 2,2% do ~2,3%)
  • Porównanie SOTA: TypeNet (Triplet) EER=2,2% vs POHMM 24,7%, Digraphs 43,1%, CNN+RNN 13,7%

Uwierzytelnianie na ekranie dotykowym (mobile):

  • Najlepsze wyniki: EER = 6,3% (G=10, M=100) z Triplet loss
  • One-shot: EER = 10,7%
  • Skalowanie do 30 tys. użytkowników: stabilna wydajność
  • Porównanie SOTA: TypeNet (Triplet) EER=9,2% vs POHMM 29,2%, CNN+RNN 12,2%

Interoperacyjność między urządzeniami (cross-database):

  • Desktop model testowany na danych mobilnych: EER wzrasta z 2,2% do 13,7%
  • Mobile model testowany na danych desktop: EER wzrasta z 9,2% do 21,4%
  • Mixture model (trenowany na obu): lepszy niż single-device ale znacznie gorszy niż native

Identyfikacja użytkowników (B=1000):

  • Rank-1 (Triplet): 67,4% desktop, 25,5% mobile
  • Rank-50: 99,8% desktop, 87,5% mobile
  • Rank-100: 99,9% desktop, 94,2% mobile
  • Z pre-screeningiem geograficznym: Rank-1 wzrasta do 84% desktop

Generalizacja na inne bazy danych:

  • Buffalo (free-text): 7,6% EER
  • Buffalo (transcribed): 9,5% EER
  • Clarkson II (wszystkie dane): 17,2% EER
  • Wyniki bez retrainingu wykazują potencjał generalizacji na podobne sceneria

Przydatne Cytaty

“We present the first evidence in the literature of competitive performance of free-text keystroke biometric authentication at large scale (up to 100,000 test subjects).” (str. 2)

“TypeNet learns a feature representation of a keystroke sequence without the need for retraining if new subjects are added to the database, as commonly happens in many biometric systems. Therefore, TypeNet is easily scalable.” (str. 2)

“Our results range from 17.2% to 1.2% EER in desktop and from 17.7% to 6.3% EER in mobile scenarios depending on the amount of subject data enrolled.” (str. 11)

“These results suggest that our approach achieves error rates close to those achieved by the state-of-the-art fixed-text algorithms, within ~5% of error rate even when the enrollment data is scarce.” (str. 11)

“The Triplet loss function enables learning from positive and negative comparisons at the same time” (str. 6)

Datasety

  • Dhakal et al. dataset - 168,000 użytkowników, 136M+ klawiszy, klawiatury fizyczne
  • Palin et al. dataset - 60,000 użytkowników (z 260K), 63M+ klawiszy, ekrany dotykowe
  • Clarkson II dataset - 103 użytkowników, 12,9M klawiszy, klawiatury fizyczne, dane całkowicie niekontrolowane
  • Buffalo dataset - 148 użytkowników, klawiatury fizyczne, dane niekontrolowane

Powiązane Tematy

  • Biometria behawioralna (behavioral biometrics)
  • Sieci neuronowe głębokie (deep learning)
  • Uczenie się metryki (metric learning)
  • Siamese networks i triplet loss
  • Biometria behawioralna na urządzeniach mobilnych
  • Bezpieczeństwo uwierzytelniania w dużej skali
  • Detekcja botów (bot detection)
  • Analiza zachowania użytkownika
  • Identyfikacja kryminalistyczna
  • Transfer learning w biometrii

Notatki

Elementów w folderze: 0.