The Internet with Privacy Policies: Measuring The Web Upon Consent
Metadane
- Autorzy: Nikhil Jha, Martino Trevisan, Luca Vassio, Marco Mellia
- Rok: 2022
- Źródło: ACM Transactions on the Web, arXiv:2109.00395v2 [cs.CR]
- DOI/Link: https://doi.org/10.1145/3555352
- Status: read
- Kategoria główna: Security
- Podkategorie: Privacy, Web Measurement, Web Tracking
- Tagi: consent-banners gdpr web-tracking web-measurement privacy cookies crawling web-performance third-party-tracking priv-accept
Streszczenie
Artykuł przedstawia kompleksową kampanię pomiarową wpływu Consent Banners (banerów zgody) na pomiary Web. Regulacje prywatności (GDPR, CCPA) wymusiły na stronach internetowych zbieranie zgody użytkowników przed używaniem technologii śledzących. W rezultacie strony zaczęły wyświetlać Consent Banners, które zmieniają treść ładowaną przez przeglądarkę, stanowiąc wyzwanie dla automatycznych pomiarów Web.
Autorzy opracowali Priv-Accept - crawler Web zdolny do automatycznego akceptowania Consent Banners, tak jak robią to użytkownicy w praktyce. Narzędzie opiera się na liście 258 słów kluczowych w 6 językach, osiągając skuteczność 90-95% w akceptowaniu banerów zgody. Pozwala to na porównanie, jak strony zmieniają się przed i po akceptacji polityki prywatności.
Wyniki pokazują, że wszystkie pomiary wykonywane bez uwzględnienia Consent Banners oferują zniekształcony i niepełny obraz Web. Po akceptacji polityk prywatności: web tracking jest znacznie bardziej wszechobecny, strony są większe i wolniej się ładują. Badanie obejmuje > 12 000 stron w Europie i USA, odwiedzanych z różnych krajów świata, zarówno landing pages jak i strony wewnętrzne.
Kluczowe Wnioski
- Drastyczny wzrost trackerów po akceptacji: Liczba trackerów na stronach wzrasta nawet do 70 po akceptacji consent banner, w niektórych kategoriach (News and Media) średnio 4-9 razy
- Priv-Accept najbardziej skuteczny: Priv-Accept akceptuje Consent Banners na 2x więcej stron niż Consent-O-Matic (50-60% vs 17-35%)
- Błędne pomiary bez akceptacji: HTTPArchive i podobne projekty pokazują fałszywy spadek trackingu po GDPR (~10% spadek), podczas gdy w rzeczywistości tracking pozostał na podobnym poziomie - strony tylko poprawnie implementują zgodę
- Różnice między krajami: Strony popularne w Niemczech najbardziej przestrzegają GDPR (44% trackerów przed akceptacją → 64% po), UK najmniej (63% → 74%)
- Różnice między kategoriami: News and Media (5.7 → 30.9 trackerów), Sports (4.6 → 21.0), podczas gdy Adult praktycznie bez zmian (wyjątkowy ekosystem śledzenia)
- Lokalizacja ma znaczenie: Z serwerów poza UE Priv-Accept znajduje ~10% mniej Consent Banners (strony geo-targetują wyświetlanie banerów)
- Większe i wolniejsze strony: Po akceptacji 9% stron zawiera >2x więcej obiektów, median OnLoad time wzrasta z 1.35s do 3.38s dla stron z >50 dodatkowymi third-parties (warm cache)
- Top trackers bardziej wszechobecne: google-analytics.com: 61% → 74%, doubleclick.net: 41% → 58%, facebook.com: 24% → 39%
- Korelacje między API: Wiele trackerów jest silnie skorelowanych, ignorowanie korelacji prowadzi do drastycznego przeszacowania ryzyka
- Wewnętrzne strony zwiększają tracking: Additional-Visits do 5 stron wewnętrznych dalej zwiększa wykrywalność trackerów o 5-10%
Metodologia
Priv-Accept - narzędzie do automatycznej akceptacji Consent Banners:
- Implementacja: Selenium + Google Chrome (headless mode)
- Keyword-based approach: Lista 258 słów kluczowych w 6 językach (FR, DE, IT, ES, EN-UK, EN-US)
- Proces: (1) Nawigacja do URL z czystym profilem przeglądarki, (2) Inspekcja DOM w poszukiwaniu Accept-button przez dopasowanie keywords, (3) Kliknięcie odpowiedniego elementu DOM
- Skuteczność: 92-95% akceptacji w testach walidacyjnych, ~90% na Consent Banners gdy obecne
- Typy wizyt: Warm-up (zapełnienie cache) → Before-Accept → After-Accept → Additional-Visits (5 losowych stron wewnętrznych)
Budowa listy słów kluczowych (iteracyjnie):
- Round 1: Manualne odwiedzenie top-500 stron z 5 krajów → 186 unique keywords → test na drugiej połowie → 36 nowych keywords (222 total)
- Round 2: Test na 1000 losowych stron (200/kraj) → walidacja manualna 448 niepowodzeń → 36 nowych keywords (258 total)
- Dystrybucja: Top-10 keywords pokrywa 50% stron, top-98 pokrywa 95%
Dataset i kampanie pomiarowe:
- Główna kampania (Europa + US): 12 277 unique websites z Similarweb (top-100 z 24 kategorii dla 6 krajów), kwiecień 2021, 2 tygodnie
- Kampanie dodatkowe: Crawling z US (Ohio, California), Brazylia, Japonia (Amazon AWS) - różnice geo-lokalizacyjne
- Top-100k (Tranco): Analiza wydajności i complexity, warm cache i cold cache
- Konfiguracja: 16 równoległych instancji, 5 powtórzeń każdej sekwencji testowej, Accept-Language ustawiony per kraj
Tracker detection:
- Merge 3 list: Whotracksme, EasyPrivacy, AdGuard → 1 497 domen (obecność w ≥2 listach)
- Tracker = third-party domain z listy + ustawia cookie z lifetime >1 miesiąc (profiling cookie)
- Podział HTTP transactions: First-Party, Third-Party, Trackers
Metryki:
- Tracking: liczba trackerów, pervasiveness trackerów, liczba third-parties
- Performance: OnLoad time (Page Load Time)
- Complexity: liczba obiektów, rozmiar w bajtach
Główne Koncepcje
- Consent Banner: Moduł zarządzania zgodą (Consent Management Module) wyświetlany przy pierwszej wizycie na stronie, pytający użytkownika o akceptację polityki prywatności i użycia technologii śledzących
- Before-Accept: Wizyta na stronie bez akceptacji Consent Banner - tak jak widzi crawler tradycyjny
- After-Accept: Wizyta po akceptacji Consent Banner - rzeczywiste doświadczenie użytkownika akceptującego domyślne ustawienia
- Passive sampling: Zbieranie tylko tych wartości API, które faktycznie były wywołane przez strony (nie aktywne wykonywanie APIs)
- Session: Agregacja wszystkich wizyt na konkretnej stronie przez konkretnego klienta w okresie 4 tygodni
- Surface: Web API połączone z konkretnym zestawem argumentów wejściowych
- Pervasiveness: Procent stron, na których dany tracker/third-party się pojawia
- OnLoad time: Czas załadowania strony (event OnLoad w przeglądarce)
- Profiling cookie: Cookie z czasem życia >1 miesiąc, używane do profilowania użytkowników
- Consent Management Platform (CMP): Usługa, która zarządza wyborami użytkowników w zakresie prywatności w imieniu strony internetowej
Wyniki
Pervasiveness trackerów (10 542 stron Europa):
- google-analytics.com: 61% → 74% (Before → After)
- doubleclick.net: 41% → 58%
- facebook.com: 24% → 39%
- 342 trackerów zidentyfikowanych, wzrost pervasiveness od 1 do 10x
- Liczba trackerów na ≥1% stron: 40 → 90
Breakdown per kraj (top 2500/kraj):
- Strony z ≥1 trackerem: Francja 49%→69%, Niemcy 44%→64%, Włochy 50%→70%, Hiszpania 48%→68%, UK 63%→74%, US 68%→73%
- Średnia liczba trackerów: Włochy ×4 wzrost (Before→Additional-Visits)
- Niemcy najbardziej przestrzegają GDPR, US najmniej
Breakdown per kategoria:
- News and Media: 5.7 → 30.9 → 47.7 trackerów (Before → After → Additional)
- Sports: 4.6 → 21.0 trackerów
- Adult: Brak istotnych zmian (tylko 20% ma Consent Banners)
- Consent Banner found: News 87%, Adult 20%
Geo-różnice:
- Z Europy: 62.7% Consent Banners found & accepted
- Z US/Japonia/Brazylia: 48-51% (~10% mniej)
- Strony geo-targetują wyświetlanie Consent Banners
Complexity (Top-100k Tranco, 23% z Consent Banner):
- 9% stron ma >2x więcej obiektów po akceptacji
- Third-parties: median 12 → 17
- Strony z >50 Third-Parties: 1.8% → 9.2%
Performance (Top-100k Tranco):
- Warm cache: Strony z 20-50 dodatkowymi Third-Parties: median OnLoad 0.91s → 1.41s
- Warm cache: Strony z >50 dodatkowymi Third-Parties: median OnLoad 1.35s → 3.38s (>2x)
- Cold cache: Strony z >50 dodatkowymi Third-Parties: median OnLoad 1.8s → 5.2s
- Wszystkie różnice statystycznie istotne (Mood’s test, p<0.05)
Przydatne Cytaty
“To protect user privacy, legislators have regulated the use of tracking technologies, mandating the acquisition of users’ consent before collecting data. As a result, websites started showing more and more consent management modules” (str. 1)
“If not correctly handled, Consent Banners prevent crawlers from observing the actual content of the websites.” (str. 1)
“Our results show that all measurements performed ignoring the Consent Banners offer a biased and partial view of the Web. After accepting the privacy policies, web tracking is far more pervasive, webpages are larger and slower to load.” (str. 1)
“A researcher collecting statistics by crawling the Web without managing consent could erroneously think that tracking is decreasing with respect to the past. However, the number of trackers websites embed substantially increases upon acceptance of the privacy policy, in some cases up to 70.” (str. 2)
“Since these banners change the content the browser loads, they challenge web measurement collection, primarily to monitor the extent of tracking technologies, but also to measure web performance.” (str. 1)
“Priv-Accept proves the most robust approach, bypassing the Consent Banner in about 90% of cases when present.” (str. 2)
“The keyword-based approach eases the generalization of the solution.” (str. 6)
“European websites use the same quantity of Trackers as US ones, although they are often contacted only after accepting the privacy policy.” (str. 13)
“Websites that include many more Third-Parties upon acceptance are significantly slower to load.” (str. 20)
“For this, we offer Priv-Accept as an open-source tool to incentivize other researchers to contribute.” (str. 2)
Datasety
Nie używa publicznie dostępnych datasetów do treningowania - badanie opiera się na:
- Similarweb lists: Top-100 stron z 24 kategorii dla 6 krajów → 12 277 unique websites
- Tranco list: Top-100 000 stron globalnie
- Tracker lists (merge): Whotracksme + EasyPrivacy + AdGuard → 1 497 tracking domains
- HTTPArchive: Użyty do pokazania artifact (Figure 2) - spadek trackerów po GDPR w pomiarach automatycznych
Open-source release:
- Priv-Accept: https://github.com/marty90/priv-accept
- Dataset i kod do generowania figur: udostępnione społeczności
- Dockerized version: martino90/priv-accept
Powiązane Tematy
- GDPR compliance measurement
- CCPA and privacy regulations impact
- Consent Management Platforms (CMPs)
- Cookie synchronization and leaking
- Canvas fingerprinting and advanced tracking
- Web crawler design and methodology
- Browser automation (Selenium, Puppeteer)
- Quality of Experience (QoE) metrics
- HTTP/2 and HTTP/3 performance
- First-party vs third-party tracking
- Real-time bidding (RTB) ecosystem
- Ad-blocking effectiveness
- Privacy paradox (user behavior vs stated preferences)
- Dark patterns in consent design
- Natural Language Processing for consent detection
- Reproducibility in web measurement studies
- Geographic targeting and personalization
- Internal pages vs landing pages differences
- Wayback Machine and web archiving challenges