Pobierz PDF

SoK: Advances and Open Problems in Web Tracking

Metadane

Streszczenie

Ten Systematization of Knowledge (SoK) przedstawia kompleksowy przegląd mechanizmów śledzenia użytkowników w sieci (web tracking), środków zaradczych oraz regulacji prawnych kształtujących współczesny krajobraz prywatności w internecie. Publikacja konsoliduje rozproszoną literaturę naukową z ostatnich 20 lat, identyfikując kluczowe trendy, luki badawcze i kierunki przyszłych badań.

Autorzy analizują ewolucję trackingu internetowego od prostych cookies (lata 90.) do zaawansowanych technik fingerprinting i cross-device tracking. Szczególną uwagę poświęcają transformacji ekosystemu pod wpływem trzech czynników: (1) zmian w przeglądarki (blokowanie third-party cookies, partycjonowanie storage), (2) regulacji prawnych (GDPR, CCPA/CPRA), oraz (3) adaptacji trackerów (first-party tracking, bounce tracking, link decoration).

Praca systematyzuje mechanizmy trackingu w dwóch głównych kategoriach: stateful tracking (cookies, cookie syncing, tracking pixels/tags) oraz stateless tracking (browser fingerprinting, extension fingerprinting, hardware-based fingerprinting). Analizuje również cross-device tracking i metodologie pomiarowe (crawling, user studies).

Kluczowe Wnioski

  1. Ewolucja mechanizmów trackingu: Trackerzy konsekwentnie obchodzą zabezpieczenia, migrując z third-party cookies na first-party cookies, navigational tracking (bounce tracking, link decoration) i fingerprinting.

  2. Ograniczenia samych tylko regulacji: GDPR i CCPA/CPRA poprawiły odpowiedzialność, ale enforcement nie nadąża za szybkością zmian technicznych. Trackerzy wykorzystują “szare strefy” prawne.

  3. Niepełna ochrona browserów: Różne przeglądarki oferują różne poziomy ochrony (Safari ITP, Firefox ETP, Chrome Privacy Sandbox), ale komercyjne interesy często prowadzą do bardziej permisywnych rozwiązań.

  4. Shift to first-party context: Blokowanie third-party cookies prowadzi do wykorzystywania first-party scripts z pełnymi uprawnieniami, cookie syncing w kontekście first-party, oraz server-side tracking.

  5. Fingerprinting jako trudne wyzwanie: Brak konsensusu w branży co do możliwości całkowitego wyeliminowania fingerprintingu. Normalizacja API vs. randomizacja to konkurujące podejścia.

  6. Koncentracja władzy: Identity providers (Google, Meta, Apple) budują proprietary identity graphs, łącząc dane z wielu źródeł (login, offline transactions, cross-device).

Metodologia

Autorzy przeprowadzili:

  • Systematyczny przegląd literatury: 200+ publikacji z ostatnich 20 lat z 7 top konferencji (IEEE S&P, USENIX Security, ACM CCS, NDSS, ACM IMC, PETS, WWW)
  • Analizę tematyczną: Zidentyfikowano 84 tematy badawcze, z czego top 15 obejmuje: tracking measurement, third-party tracking, browser fingerprinting, cookie consent, profiling
  • Syntezę trzech perspektyw: techniki trackingu, mechanizmy obronne (browser-based), regulacje prawne (EU i US)

Scope pracy: jak dane są zbierane o użytkownikach, nie jak są wykorzystywane.

Główne Koncepcje

  • Stateful Tracking: Przechowywanie identyfikatora w przeglądarce (cookies, localStorage, IndexedDB). Umożliwia re-identyfikację użytkownika przy powrotach na stronę.

  • Third-party Cookies: Podstawowy mechanizm cross-site tracking przez wiele lat. Obecnie blokowany/partycjonowany przez większość przeglądarek.

  • Cookie Syncing: Mechanizm wymiany identyfikatorów użytkownika między różnymi trackerami (przez URL parameters, redirects) w celu łączenia danych.

  • Tracking Pixels/Tags: Ewolucja od prostych 1x1 pixel images do zaawansowanych JavaScript-based tags zbierających szczegółowe dane o interakcjach użytkownika.

  • Browser Fingerprinting: Technika stateless - zbieranie atrybutów przeglądarki/urządzenia (User-Agent, screen size, fonts, GPU, Canvas, WebGL) w celu unikalnej identyfikacji bez przechowywania danych.

  • Bounce Tracking: Krótkie przekierowanie przez domenę trackera jako first-party w celu odczytu/zapisu cookies mimo blokowania third-party cookies.

  • Link Decoration: Przekazywanie identyfikatorów w URL parameters (query strings, fragments) do śledzenia nawigacji między stronami.

  • Storage Partitioning: Izolacja browser storage per (top-level site, embedded origin) aby uniemożliwić cross-site tracking.

  • Intelligent Tracking Prevention (ITP): Safari’s system ML-based detection trackerów z ograniczaniem lifetime cookies i storage.

  • Privacy Sandbox: Google’s inicjatywa privacy-preserving advertising APIs (Topics, Protected Audience, Attribution Reporting) jako alternatywa dla third-party cookies.

Wyniki

Prevalence trackingu:

  • 92% stron zawiera przynajmniej jeden tracker (2024)
  • ~90% stron używa przynajmniej jednego first-party tracking cookie (2023)
  • 10% top 100K stron używa browser fingerprinting (2021, wzrost z 1% w 2013)

Compliance z regulacjami:

  • Niski poziom compliance z GDPR/CCPA w praktyce
  • Consent banners często używają dark patterns
  • Pre-ticked boxes, brak równorzędnej opcji “reject”

Effectiveness countermeasures:

  • Third-party cookie blocking skuteczny, ale trackerzy migrują do obejść
  • Fingerprinting randomization/normalization nie eliminuje problemu całkowicie
  • Filter lists (ad blocking) wymagają ciągłej aktualizacji, 90% reguł EasyList praktycznie nieużywane

Emerging trends:

  • Server-side tracking trudniejszy do audytu
  • Session replay scripts przechwytują wrażliwe dane (keystrokes, formulars)
  • Hardware-based fingerprinting (CPU timing, DRAM imperfections) jako nowe wektory

Przydatne Cytaty

“Web tracking is undergoing a once-in-a-generation transformation, driven by fundamental shifts in the advertising industry, the adoption of anti-tracking countermeasures by browsers, and the growing enforcement of emerging privacy regulations.” (str. 1)

“As privacy defenses improve in browsers, trackers continually adapt with new evasion techniques. The result is an ever-shifting technical landscape of tracking techniques.” (str. 1)

“Nearly half of the top most visited websites already use first-party tracking cookies. We expect this trend to continue with further adoption of third-party tracking restrictions.” (str. 11)

“Browser fingerprinting is largely enabled by the information that browsers share to improve user experience. While this was necessary in the 1990s […] nowadays browsers all strictly adhere to the same set of standards and rendering is consistent across devices and platforms.” (str. 12)

“Regulations alone are insufficient – data protection statutes such as GDPR and CCPA have tightened accountability, yet such enforcement lags the speed of technical changes in evolving tracking mechanisms.” (str. 14)

“Future research must therefore look beyond ‘fix it in the browser’ remedies and explore complementary approaches that truly safeguard user’s privacy.” (str. 14)

Datasety

Publikacja nie wprowadza nowych datasetów, ale omawia wykorzystywane w badaniach:

  • Alexa Top Million - lista popularnych stron (deprecated 2021)
  • Tranco - research-oriented top sites ranking odporna na manipulację
  • HTTP Archive, Common Crawl, Internet Archive - publiczne crawl datasets

Datasety fingerprintingu:

  • Różne rozmiary: 470K-1.5B fingerprints w różnych studiach
  • Real-world browser fingerprints z commercial anti-bot services

Powiązane Tematy

  • Privacy-preserving advertising (Privacy Sandbox, Topics API, Protected Audience)
  • Consent Management Platforms (CMPs) compliance
  • Cross-device identity graphs
  • Server-side tracking i conversion APIs
  • Browser extension fingerprinting
  • Mobile app tracking (IDFA, AAID)
  • Generative AI w kontekście targetowania reklam i browser assistants
  • Regulatory enforcement (FTC actions, GDPR/CCPA fines)
  • Dark patterns w cookie consent interfaces
  • Session replay security risks
  • Hardware fingerprinting (CPU, GPU, DRAM)
  • Privacy Budget proposal (discontinued)

Notatki

Open Problems zidentyfikowane przez autorów:

  1. Stateful tracking: Jak wykrywać opaque server-side data flows? Jak są konfigurowane tracking tags i jaki to ma wpływ?

  2. Fingerprinting: Czy można rozróżnić “good” vs “bad” fingerprinting (security vs tracking)? Real-world impact at scale?

  3. Measurements: Automated frameworks dla monitorowania zmian w Web APIs; tool do automatycznego przypisywania purpose trackerom

  4. Regulations: Reconciling technical compliance, regulatory requirements, website incentives; browser-based consent mechanisms

  5. Browsers: Adaptive monitoring dla next-gen tracking; balance privacy-preserving ads z tracking protection

  6. Emerging: Tracking w innych ekosystemach (mobile, IoT); generative AI risks; paywalls forcing users to remain recognizable

Krytyczna ocena:

  • Bardzo kompleksowa systematyzacja 20 lat badań
  • Silna dokumentacja timeline’u (Figure 8) pokazująca paralelne zmiany techniczne i prawne
  • Brak głębszej analizy trade-offs między privacy a utility w kontekście business models
  • Limited discussion na temat alternative monetization models beyond advertising

Implikacje dla badań:

  • Potrzeba unified approach: regulacje + technologia + user agency
  • Default privacy-first solutions zamiast reactive defenses
  • Collaboration między measurement community a regulators dla agile enforcement
  • Focus na accountability trackerów, nie tylko website publishers

Elementów w folderze: 0.