E-commerce Bot Detection Dataset (Zhao et al. 2026)
Informacje podstawowe
- Nazwa: Anonimizowane Logi Serwera E-commerce z Etykietami Botów
- Alias: E-commerce Traffic Logs 2026, Session-URL Interaction Graph
- Dziedzina: Security, E-commerce, Anomaly Detection
- Typ: Time-series behavioral logs, graph data, tabular
Źródło
- Publikacja: Non-Intrusive Graph-Based Bot Detection for E-Commerce Using Inductive Graph Neural Networks
- Autorzy: Sichen Zhao, Zhiming Xue, Yalun Qi, Xianling Zeng, Zihan Yu
- Rok: 2026
- Organizacja: Northeastern University (College of Engineering, Khoury College of Computer Sciences)
- Dostępność: Anonimizowane logi z rzeczywistej platformy e-commerce (nie publicznie dostępne w publikacji)
Charakterystyka
- Rozmiar: ~80,000 sesji tła, ~5% botów (4,000-5,000 sesji botów)
- Czasowy zakres: Dwa tygodnie (Week 1 vs Week 2 dla ewaluacji)
- Typ grafu: Bipartite session-URL graph na rzędzie 10^5 krawędzi
- Węzły: Dziesiątki tysięcy sesji; tysiące unikalnych URL
- Rozkład stopni: Power-law degree distribution
- Podziały: 10% walidacja, 10% test, 80% trening
- Formatowanie: Anonimizowane identyfikatory (one-way hashing), brak surowych URL, query parameters, użytkowniczych identyfikatorów
- Imbalans klas: ~5% botów (wymagający wagi klas dla treningu)
Opis
Dataset zawiera anonimizowane logi serwera z reprezentatywnej średniej platformy e-commerce, obejmujące dwa tygodnie ruchu. Dane pochodzą z hybrydowej (quasi-syntetycznej) strategii etykietowania, łączącej:
- Zweryfikowane ataki rzeczywistego świata: Honeypots i pułapki URL (specjalne strony zaprojektowane aby przechwytywać automatyczne zagrożenia)
- Kontrolowane wstrzyknięcia: Różnorodne skrypty botów (scrapers, headless browsers) wstrzykniętych w kontrolowany sposób
Surowe dane łącze sesji (sekwencje żądań/akcji w oknie czasowym) z dostępem do URL (unikalne strony/zasoby). Każda sesja ma przypisane:
- Cechy behawioralne: czas sesji, liczba żądań, prędkość żądań
- Cechy pokrycia: liczba odrębnych stron/kategorii, indykatory akcji wieloetapowych (dodanie do koszyka, logowanie)
- Cechy fingerprinta: grube user-agent/headers (gdy dostępne)
Każdy URL ma przypisane:
- Kategorię strony: produkt, kategoria, wyszukiwanie, checkout
- Globalne statystyki dostępu: relatywna popularność/rarość
- Tagi czułości dla specjalnych punktów końcowych
Dataset wykazuje znaczną ewolucję: 19.2% węzłów URL w Week 2 nie było widoczne w Week 1, odzwierciedlając rzeczywisty drift behawioralny (Jensen-Shannon divergence 0.083 dla statystyk poziomu sesji).
Użycie w publikacjach
- Zhao et al. 2026 - Non-Intrusive Graph-Based Bot Detection for E-Commerce - Główne badanie wykorzystujące ten dataset do trenowania i ewaluacji indukcyjnego modelu GraphSAGE dla detekcji botów
Benchmarki
| Model | Metryka | Wynik | Notatki |
|---|---|---|---|
| Session-level MLP (Baseline) | AUC | 0.9102 ± 0.0150 | Bez konektywnośćci grafu |
| GraphSAGE (Raw Graph) | AUC | 0.8756 ± 0.1042 | Nierafinowany graf (mniej stabilny) |
| GraphSAGE (Refined) | AUC | 0.9705 ± 0.0085 | Z filtrowaniem zasobów statycznych |
| GraphSAGE (Cold-Start Week 2) | AUC | 0.9630 | Indukcyjne wnioskowanie na nowych sesjach/URL |
| GraphSAGE (Extreme Cold-Start) | AUC | 0.8890 | Sesje z całkowicie nowymi URL |
| Session MLP (F1 @1% FPR) | F1 | 0.7508 | Przy 1% false positive rate |
| GraphSAGE Refined (F1 @1% FPR) | F1 | 0.8501 | Przy 1% false positive rate |
Charakterystyka Behawioralna
Dataset zawiera bogatą informację behawioralną o dystrybucji dla ludzi vs botów:
- Mouse Speed (px/s): Ludzie ~200-400 px/s, Boty ~400-1000 px/s
- Click Frequency (/min): Ludzie ~20-40 kliknięć/min, Boty ~40-60 kliknięć/min
- Dwell Time (s): Ludzie ~5-50s, Boty ~0-20s
Jednak indywidualne cechy wykazują znaczną overlap, motywując wykorzystanie modelowania grafu relacyjnego.
Udostępnianie i Dostęp
Dataset jest anonimizowany i pochodzi z rzeczywistej platformy e-commerce. Szczegóły jego dostępu nie są podane w publikacji, wskazując na zastrzeżony charakter handlowy. Badania mogą być replikowane poprzez:
- Użycie własnych logów e-commerce (analogiczna struktura)
- Synteza podobnych grafów sesji-URL z opensource datasety zachowujące charakterystykę topologiczną
Uwagi
- Dataset demonstruje praktyczne minimum ~3 odwiedzenia URL na sesję dla niezawodnej klasyfikacji
- Topologia grafu pozostaje diagnostyczna nawet pod łagodnymi perturbacjami niezamierzonymi (1-3 zmodyfikowanych krawędzi na sesję)
- Schemat anonimizacji (one-way hashing) zapewnia prywatność bez ujawniania PII, umożliwiając bezpieczne wdrażanie bez instrukcji po stronie klienta
Tagi
dataset ecommerce bot-detection security anomaly-detection graph-data behavioral-analysis session-based time-series