E-commerce Bot Detection Dataset (Zhao et al. 2026)

Informacje podstawowe

  • Nazwa: Anonimizowane Logi Serwera E-commerce z Etykietami Botów
  • Alias: E-commerce Traffic Logs 2026, Session-URL Interaction Graph
  • Dziedzina: Security, E-commerce, Anomaly Detection
  • Typ: Time-series behavioral logs, graph data, tabular

Źródło

  • Publikacja: Non-Intrusive Graph-Based Bot Detection for E-Commerce Using Inductive Graph Neural Networks
  • Autorzy: Sichen Zhao, Zhiming Xue, Yalun Qi, Xianling Zeng, Zihan Yu
  • Rok: 2026
  • Organizacja: Northeastern University (College of Engineering, Khoury College of Computer Sciences)
  • Dostępność: Anonimizowane logi z rzeczywistej platformy e-commerce (nie publicznie dostępne w publikacji)

Charakterystyka

  • Rozmiar: ~80,000 sesji tła, ~5% botów (4,000-5,000 sesji botów)
  • Czasowy zakres: Dwa tygodnie (Week 1 vs Week 2 dla ewaluacji)
  • Typ grafu: Bipartite session-URL graph na rzędzie 10^5 krawędzi
  • Węzły: Dziesiątki tysięcy sesji; tysiące unikalnych URL
  • Rozkład stopni: Power-law degree distribution
  • Podziały: 10% walidacja, 10% test, 80% trening
  • Formatowanie: Anonimizowane identyfikatory (one-way hashing), brak surowych URL, query parameters, użytkowniczych identyfikatorów
  • Imbalans klas: ~5% botów (wymagający wagi klas dla treningu)

Opis

Dataset zawiera anonimizowane logi serwera z reprezentatywnej średniej platformy e-commerce, obejmujące dwa tygodnie ruchu. Dane pochodzą z hybrydowej (quasi-syntetycznej) strategii etykietowania, łączącej:

  1. Zweryfikowane ataki rzeczywistego świata: Honeypots i pułapki URL (specjalne strony zaprojektowane aby przechwytywać automatyczne zagrożenia)
  2. Kontrolowane wstrzyknięcia: Różnorodne skrypty botów (scrapers, headless browsers) wstrzykniętych w kontrolowany sposób

Surowe dane łącze sesji (sekwencje żądań/akcji w oknie czasowym) z dostępem do URL (unikalne strony/zasoby). Każda sesja ma przypisane:

  • Cechy behawioralne: czas sesji, liczba żądań, prędkość żądań
  • Cechy pokrycia: liczba odrębnych stron/kategorii, indykatory akcji wieloetapowych (dodanie do koszyka, logowanie)
  • Cechy fingerprinta: grube user-agent/headers (gdy dostępne)

Każdy URL ma przypisane:

  • Kategorię strony: produkt, kategoria, wyszukiwanie, checkout
  • Globalne statystyki dostępu: relatywna popularność/rarość
  • Tagi czułości dla specjalnych punktów końcowych

Dataset wykazuje znaczną ewolucję: 19.2% węzłów URL w Week 2 nie było widoczne w Week 1, odzwierciedlając rzeczywisty drift behawioralny (Jensen-Shannon divergence 0.083 dla statystyk poziomu sesji).

Użycie w publikacjach

Benchmarki

ModelMetrykaWynikNotatki
Session-level MLP (Baseline)AUC0.9102 ± 0.0150Bez konektywnośćci grafu
GraphSAGE (Raw Graph)AUC0.8756 ± 0.1042Nierafinowany graf (mniej stabilny)
GraphSAGE (Refined)AUC0.9705 ± 0.0085Z filtrowaniem zasobów statycznych
GraphSAGE (Cold-Start Week 2)AUC0.9630Indukcyjne wnioskowanie na nowych sesjach/URL
GraphSAGE (Extreme Cold-Start)AUC0.8890Sesje z całkowicie nowymi URL
Session MLP (F1 @1% FPR)F10.7508Przy 1% false positive rate
GraphSAGE Refined (F1 @1% FPR)F10.8501Przy 1% false positive rate

Charakterystyka Behawioralna

Dataset zawiera bogatą informację behawioralną o dystrybucji dla ludzi vs botów:

  • Mouse Speed (px/s): Ludzie ~200-400 px/s, Boty ~400-1000 px/s
  • Click Frequency (/min): Ludzie ~20-40 kliknięć/min, Boty ~40-60 kliknięć/min
  • Dwell Time (s): Ludzie ~5-50s, Boty ~0-20s

Jednak indywidualne cechy wykazują znaczną overlap, motywując wykorzystanie modelowania grafu relacyjnego.

Udostępnianie i Dostęp

Dataset jest anonimizowany i pochodzi z rzeczywistej platformy e-commerce. Szczegóły jego dostępu nie są podane w publikacji, wskazując na zastrzeżony charakter handlowy. Badania mogą być replikowane poprzez:

  1. Użycie własnych logów e-commerce (analogiczna struktura)
  2. Synteza podobnych grafów sesji-URL z opensource datasety zachowujące charakterystykę topologiczną

Uwagi

  • Dataset demonstruje praktyczne minimum ~3 odwiedzenia URL na sesję dla niezawodnej klasyfikacji
  • Topologia grafu pozostaje diagnostyczna nawet pod łagodnymi perturbacjami niezamierzonymi (1-3 zmodyfikowanych krawędzi na sesję)
  • Schemat anonimizacji (one-way hashing) zapewnia prywatność bez ujawniania PII, umożliwiając bezpieczne wdrażanie bez instrukcji po stronie klienta

Tagi

dataset ecommerce bot-detection security anomaly-detection graph-data behavioral-analysis session-based time-series