Internet Archive Wayback Machine
Informacje podstawowe
- Nazwa: Internet Archive Wayback Machine
- Alias: Wayback Machine, Archive.org
- Dziedzina: Web Archiving
- Typ: Historical web snapshots, archival service
Źródło
- URL: https://archive.org/web/
- Paper: https://archive.org/
- Organizacja: Internet Archive (non-profit)
- Rok: 1996-present (30+ lat archiwizacji)
Charakterystyka
- Rozmiar: 600+ miliardów archiwalnych stron internetowych
- Czasowy zasięg: 1996-present
- Format: HTTP snapshots, JavaScript resources, images
- Licencja: Public access (z pewnymi ograniczeniami)
- Aktualizacja: Ciągła (periodyczne crawle)
Opis
Internet Archive Wayback Machine to największy serwis archiwizacji stron internetowych, przechowujący historyczne kopie stron od 1996 roku. Umożliwia retrospektywne badania nad ewolucją sieci poprzez dostęp do starszych wersji stron, skryptów i zasobów. Jest krytycznym narzędziem do badań longitudinalnych nad zmianami w technologiach internetowych, bezpieczeństwie i prywatności.
Zastosowania
- Badania longitudinalne nad ewolucją technik internetowych
- Analiza historyczna rozpowszechnienia konkretnych technologii
- Retrospektywne pomiary bezpieczeństwa i prywatności
- Śledztwa nad zmianami w praktykach śledzenia użytkowników
- Analiza historii poszczególnych serwisów internetowych
Używany w publikacjach
- [bahrami-fp-radar-fingerprinting-2021] - Główne źródło danych dla badania longitudinalnego API fingerprinting’u w latach 2010-2019. Pobrano ~100K skryptów z top-100K stron, w tym 1,658 skryptów fingerprinting’u.
Benchmarki
| Metryka | Wartość | Uwagi |
|---|---|---|
| Liczba zarchiwizowanych stron | 600+ miliardów | Szacunek Internet Archive |
| Pokrycie czasowe | 1996-present | 30+ lat |
| Skrypty pobrane w FP-Radar | ~100K | Z 2010-2019 dla top-100K stron |
| Wskaźnik pokrycia skryptów | 56.91% | 43.09% skryptów niemożliwych do pobrania |
| Bias mierzonych skryptów | Nieznaczny | Zarówno FP jak i non-FP skrypty pominięte proporcjonalnie |
Uwagi
Ograniczenia
- Niekompletne archiwizowanie ze względu na robots.txt polityki (do 2017)
- Pominięcie dynamicznie generowanych zasobów (JavaScript execution limitations)
- Zmienne URL’e zasobów mogą prowadzić do pominięcia tych samych zasobów
- Rzadsze crawle mniej popularnych stron (możliwe 1-2 razy rocznie)
- Brak pełnego JavaScript execution podczas archiwizacji
Alternatywy
- HTTP Archive - archiwizuje miliony URL’i miesięcznie (od 2010), ale przechowuje tylko ostatnie 6 lat
- Live web crawls - współczesne pomiary, brak historii
- Tranco - współczesny ranking rzetelny ale bez historii
Wiarygodność dla badań
- Pomimo ograniczeń, wykazane brak bias’u w rzeczywistym badaniu (FP i non-FP skrypty pominięte proporcjonalnie)
- Obserwowane trendy (1.16% FP w 2016 vs 1.43% w literaturze, 3.70% FP w 2018 vs 3.69% w literaturze) potwierdzają wiarygodność
Tagi
dataset archiving web-history longitudinal-study retrospective