Internet Archive Wayback Machine

Informacje podstawowe

Nazwa: Internet Archive Wayback Machine
Alias: Wayback Machine, Archive.org
Dziedzina: Web Archiving
Typ: Historical web snapshots, archival service

Źródło

URL: https://archive.org/web/
Paper: https://archive.org/
Organizacja: Internet Archive (non-profit)
Rok: 1996-present (30+ lat archiwizacji)

Charakterystyka

Rozmiar: 600+ miliardów archiwalnych stron internetowych
Czasowy zasięg: 1996-present
Format: HTTP snapshots, JavaScript resources, images
Licencja: Public access (z pewnymi ograniczeniami)
Aktualizacja: Ciągła (periodyczne crawle)

Opis

Internet Archive Wayback Machine to największy serwis archiwizacji stron internetowych, przechowujący historyczne kopie stron od 1996 roku. Umożliwia retrospektywne badania nad ewolucją sieci poprzez dostęp do starszych wersji stron, skryptów i zasobów. Jest krytycznym narzędziem do badań longitudinalnych nad zmianami w technologiach internetowych, bezpieczeństwie i prywatności.

Zastosowania

Badania longitudinalne nad ewolucją technik internetowych
Analiza historyczna rozpowszechnienia konkretnych technologii
Retrospektywne pomiary bezpieczeństwa i prywatności
Śledztwa nad zmianami w praktykach śledzenia użytkowników
Analiza historii poszczególnych serwisów internetowych

Używany w publikacjach

[bahrami-fp-radar-fingerprinting-2021] - Główne źródło danych dla badania longitudinalnego API fingerprinting’u w latach 2010-2019. Pobrano ~100K skryptów z top-100K stron, w tym 1,658 skryptów fingerprinting’u.

Benchmarki

Metryka	Wartość	Uwagi
Liczba zarchiwizowanych stron	600+ miliardów	Szacunek Internet Archive
Pokrycie czasowe	1996-present	30+ lat
Skrypty pobrane w FP-Radar	~100K	Z 2010-2019 dla top-100K stron
Wskaźnik pokrycia skryptów	56.91%	43.09% skryptów niemożliwych do pobrania
Bias mierzonych skryptów	Nieznaczny	Zarówno FP jak i non-FP skrypty pominięte proporcjonalnie

Uwagi

Ograniczenia

Niekompletne archiwizowanie ze względu na robots.txt polityki (do 2017)
Pominięcie dynamicznie generowanych zasobów (JavaScript execution limitations)
Zmienne URL’e zasobów mogą prowadzić do pominięcia tych samych zasobów
Rzadsze crawle mniej popularnych stron (możliwe 1-2 razy rocznie)
Brak pełnego JavaScript execution podczas archiwizacji

Alternatywy

HTTP Archive - archiwizuje miliony URL’i miesięcznie (od 2010), ale przechowuje tylko ostatnie 6 lat
Live web crawls - współczesne pomiary, brak historii
Tranco - współczesny ranking rzetelny ale bez historii

Wiarygodność dla badań

Pomimo ograniczeń, wykazane brak bias’u w rzeczywistym badaniu (FP i non-FP skrypty pominięte proporcjonalnie)
Obserwowane trendy (1.16% FP w 2016 vs 1.43% w literaturze, 3.70% FP w 2018 vs 3.69% w literaturze) potwierdzają wiarygodność

Tagi

dataset archiving web-history longitudinal-study retrospective

Research

Przeglądaj

Internet Archive Wayback Machine

Internet Archive Wayback Machine

Informacje podstawowe

Źródło

Charakterystyka

Opis

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Ograniczenia

Alternatywy

Wiarygodność dla badań

Tagi

Graf

Spis treści