Internet Archive Wayback Machine

Informacje podstawowe

  • Nazwa: Internet Archive Wayback Machine
  • Alias: Wayback Machine, Archive.org
  • Dziedzina: Web Archiving
  • Typ: Historical web snapshots, archival service

Źródło

Charakterystyka

  • Rozmiar: 600+ miliardów archiwalnych stron internetowych
  • Czasowy zasięg: 1996-present
  • Format: HTTP snapshots, JavaScript resources, images
  • Licencja: Public access (z pewnymi ograniczeniami)
  • Aktualizacja: Ciągła (periodyczne crawle)

Opis

Internet Archive Wayback Machine to największy serwis archiwizacji stron internetowych, przechowujący historyczne kopie stron od 1996 roku. Umożliwia retrospektywne badania nad ewolucją sieci poprzez dostęp do starszych wersji stron, skryptów i zasobów. Jest krytycznym narzędziem do badań longitudinalnych nad zmianami w technologiach internetowych, bezpieczeństwie i prywatności.

Zastosowania

  • Badania longitudinalne nad ewolucją technik internetowych
  • Analiza historyczna rozpowszechnienia konkretnych technologii
  • Retrospektywne pomiary bezpieczeństwa i prywatności
  • Śledztwa nad zmianami w praktykach śledzenia użytkowników
  • Analiza historii poszczególnych serwisów internetowych

Używany w publikacjach

  • [bahrami-fp-radar-fingerprinting-2021] - Główne źródło danych dla badania longitudinalnego API fingerprinting’u w latach 2010-2019. Pobrano ~100K skryptów z top-100K stron, w tym 1,658 skryptów fingerprinting’u.

Benchmarki

MetrykaWartośćUwagi
Liczba zarchiwizowanych stron600+ miliardówSzacunek Internet Archive
Pokrycie czasowe1996-present30+ lat
Skrypty pobrane w FP-Radar~100KZ 2010-2019 dla top-100K stron
Wskaźnik pokrycia skryptów56.91%43.09% skryptów niemożliwych do pobrania
Bias mierzonych skryptówNieznacznyZarówno FP jak i non-FP skrypty pominięte proporcjonalnie

Uwagi

Ograniczenia

  • Niekompletne archiwizowanie ze względu na robots.txt polityki (do 2017)
  • Pominięcie dynamicznie generowanych zasobów (JavaScript execution limitations)
  • Zmienne URL’e zasobów mogą prowadzić do pominięcia tych samych zasobów
  • Rzadsze crawle mniej popularnych stron (możliwe 1-2 razy rocznie)
  • Brak pełnego JavaScript execution podczas archiwizacji

Alternatywy

  • HTTP Archive - archiwizuje miliony URL’i miesięcznie (od 2010), ale przechowuje tylko ostatnie 6 lat
  • Live web crawls - współczesne pomiary, brak historii
  • Tranco - współczesny ranking rzetelny ale bez historii

Wiarygodność dla badań

  • Pomimo ograniczeń, wykazane brak bias’u w rzeczywistym badaniu (FP i non-FP skrypty pominięte proporcjonalnie)
  • Obserwowane trendy (1.16% FP w 2016 vs 1.43% w literaturze, 3.70% FP w 2018 vs 3.69% w literaturze) potwierdzają wiarygodność

Tagi

dataset archiving web-history longitudinal-study retrospective