Adobe E-Commerce Bot Traffic Dataset (Proprietary)
Informacje podstawowe
- Nazwa: Adobe E-Commerce Bot Traffic Dataset
- Alias: BOTracle Dataset, Adobe Analytics E-Commerce Traffic
- Dziedzina: Bot Detection, E-Commerce Security, Web Traffic Analysis
- Typ: Web server logs, behavioral data, session graphs
Źródło
- URL: Nie publiczny (data protection)
- Paper: BOTracle: A framework for Discriminating Bots and Humans (Kadel et al., 2024)
- Organizacja: Adobe Inc., Universität Hamburg (proprietary e-commerce platform)
- Rok: 2024
Charakterystyka
- Rozmiar:
- 40 milionów miesięcznych wizyt (page visits)
- ~1.4M próbek użytych do ewaluacji
- 782,671 total hits (labeled + unlabeled)
- Podział:
- Labeled: 72,648 hits (9.3%)
- Human: 7,630 hits (employee accounts)
- Bot: 65,018 hits (cloud provider IPs + heuristics)
- Unlabeled: 710,023 hits (90.7%)
- Test split: 30% (overlap clustering dla WT graphs)
- Labeled: 72,648 hits (9.3%)
- Klasy/Kategorie: Binary (Bot vs Human)
- Format: Adobe Analytics logs (Adobe Experience Cloud)
- Licencja: Proprietary, nie dostępny publicznie (business contract)
Opis
Rzeczywisty zbiór danych z ruchu na platformie e-commerce o przychodach 500M-1B USD rocznie. Dataset zawiera logi z Adobe Analytics obejmujące:
Technical Features:
- IP address, User Agent, Window size (browser dimensions)
- Java applet support, Page type, Visit frequency
- Hourly visitor status, Last purchase number
Behavioral Features (dla WT graphs):
- Page names (first hit, detailed, previous)
- Timestamps, Session structure
- Navigation patterns (page traversal sequences)
- Interaction events (purchases, promo code usage)
- Visit attributes (frequency, volume, patterns)
Labeling Strategy:
- Human assumption: Traffic z kont pracowników organizacji (7,630 hits)
- Bot assumption: Requesty z IP cloud providers (51,462 → 65,018 po heurystykach)
- Heuristics: Forged user agents, time similarity, unrealistic window sizes
- Validation: Recall 0.9988 (9 false positives na human data)
Website Traversal (WT) Graphs:
- 49,846 grafów sesji (overlap clustering)
- Rozmiary: 1-10+ węzłów
- Najliczniejsze: 26,137 grafów 1-węzłowych, 17,066 2-węzłowych
- Cechy grafowe: degree, betweenness centrality, page type distribution
Zastosowania
- Bot detection w e-commerce (training SGAN + DGCNN)
- Behavioral pattern analysis (Website Traversal graphs)
- Semi-supervised learning (9.3% labeled, 90.7% unlabeled)
- Multi-stage detection pipeline evaluation
- Feature importance analysis (Permutation Importance)
- Real-world scalability testing (40M monthly visits)
Używany w publikacjach
- BOTracle: A framework for Discriminating Bots and Humans - Training i ewaluacja 3 metod bot detection: Heuristics, SGAN (technical features), DGCNN (behavioral WT graphs). Osiągnięto 98%+ precision/recall/AUC.
Benchmarki
| Model | Accuracy | Recall | Precision | F1-Score | AUROC |
|---|---|---|---|---|---|
| SGAN (BOTracle) | 0.9895 | 0.9875 | 0.9189 | 0.9519 | 0.9886 |
| DGCNN (BOTracle) | 0.9845 | 0.9833 | 0.9791 | 0.9812 | 0.9892 |
| Botcha-MAM | 0.9364 | 0.8383 | 1.0 | 0.9120 | 0.9437 |
| Botcha-RAM | 0.9952 | 0.9663 | 0.9807 | 0.9735 | 0.9996 |
WT Graph Size Performance (DGCNN):
- 1 node: ACC 0.998, F1 0.99 (26,137 graphs)
- 2 nodes: ACC 0.973, F1 0.986 (17,066 graphs)
- 3 nodes: ACC 1.0, F1 1.0 (3,533 graphs)
- 8-10 nodes: ACC 1.0, F1 1.0 (~3K graphs)
Uwagi
Ograniczenia dostępności:
- Dataset proprietary - nie można go udostępnić publicznie ze względu na data protection i business contract
- Brak możliwości bezpośredniego benchmarkingu z innymi badaniami
- Autorzy nie mogą ujawnić nazwy firmy e-commerce
Ground Truth Challenges:
- Labeling oparty na założeniach (employee = human, cloud IP = bot)
- Może miss sophisticated bots (które nie używają cloud providers)
- Heuristics dodają 13,556 bot labels (recall 0.9988, 9 false positives)
Strengths:
- Skala: 40M monthly visits - real-world production scale
- Realism: Prawdziwy ruch e-commerce (nie lab/synthetic data)
- Semi-supervised: 90.7% unlabeled - realistyczne dla ML deployment
- Behavioral richness: WT graphs capture navigation patterns
- High-value platform: 500M-1B USD revenue - diverse bot types
Potencjalne alternatywy (dla replikacji badania #20):
- Zbieranie własnego traffic log (partnerstwo z e-commerce)
- Kaggle/UCI clickstream datasets (jeśli dostępne)
- Symulacja bot traffic (Selenium/Puppeteer) + real user data
Tagi
dataset bot-detection ecommerce web-traffic behavioral-data proprietary semi-supervised website-traversal-graphs adobe-analytics