Adobe E-Commerce Bot Traffic Dataset (Proprietary)

Informacje podstawowe

  • Nazwa: Adobe E-Commerce Bot Traffic Dataset
  • Alias: BOTracle Dataset, Adobe Analytics E-Commerce Traffic
  • Dziedzina: Bot Detection, E-Commerce Security, Web Traffic Analysis
  • Typ: Web server logs, behavioral data, session graphs

Źródło

Charakterystyka

  • Rozmiar:
    • 40 milionów miesięcznych wizyt (page visits)
    • ~1.4M próbek użytych do ewaluacji
    • 782,671 total hits (labeled + unlabeled)
  • Podział:
    • Labeled: 72,648 hits (9.3%)
      • Human: 7,630 hits (employee accounts)
      • Bot: 65,018 hits (cloud provider IPs + heuristics)
    • Unlabeled: 710,023 hits (90.7%)
    • Test split: 30% (overlap clustering dla WT graphs)
  • Klasy/Kategorie: Binary (Bot vs Human)
  • Format: Adobe Analytics logs (Adobe Experience Cloud)
  • Licencja: Proprietary, nie dostępny publicznie (business contract)

Opis

Rzeczywisty zbiór danych z ruchu na platformie e-commerce o przychodach 500M-1B USD rocznie. Dataset zawiera logi z Adobe Analytics obejmujące:

Technical Features:

  • IP address, User Agent, Window size (browser dimensions)
  • Java applet support, Page type, Visit frequency
  • Hourly visitor status, Last purchase number

Behavioral Features (dla WT graphs):

  • Page names (first hit, detailed, previous)
  • Timestamps, Session structure
  • Navigation patterns (page traversal sequences)
  • Interaction events (purchases, promo code usage)
  • Visit attributes (frequency, volume, patterns)

Labeling Strategy:

  • Human assumption: Traffic z kont pracowników organizacji (7,630 hits)
  • Bot assumption: Requesty z IP cloud providers (51,462 → 65,018 po heurystykach)
  • Heuristics: Forged user agents, time similarity, unrealistic window sizes
  • Validation: Recall 0.9988 (9 false positives na human data)

Website Traversal (WT) Graphs:

  • 49,846 grafów sesji (overlap clustering)
  • Rozmiary: 1-10+ węzłów
  • Najliczniejsze: 26,137 grafów 1-węzłowych, 17,066 2-węzłowych
  • Cechy grafowe: degree, betweenness centrality, page type distribution

Zastosowania

  • Bot detection w e-commerce (training SGAN + DGCNN)
  • Behavioral pattern analysis (Website Traversal graphs)
  • Semi-supervised learning (9.3% labeled, 90.7% unlabeled)
  • Multi-stage detection pipeline evaluation
  • Feature importance analysis (Permutation Importance)
  • Real-world scalability testing (40M monthly visits)

Używany w publikacjach

Benchmarki

ModelAccuracyRecallPrecisionF1-ScoreAUROC
SGAN (BOTracle)0.98950.98750.91890.95190.9886
DGCNN (BOTracle)0.98450.98330.97910.98120.9892
Botcha-MAM0.93640.83831.00.91200.9437
Botcha-RAM0.99520.96630.98070.97350.9996

WT Graph Size Performance (DGCNN):

  • 1 node: ACC 0.998, F1 0.99 (26,137 graphs)
  • 2 nodes: ACC 0.973, F1 0.986 (17,066 graphs)
  • 3 nodes: ACC 1.0, F1 1.0 (3,533 graphs)
  • 8-10 nodes: ACC 1.0, F1 1.0 (~3K graphs)

Uwagi

Ograniczenia dostępności:

  • Dataset proprietary - nie można go udostępnić publicznie ze względu na data protection i business contract
  • Brak możliwości bezpośredniego benchmarkingu z innymi badaniami
  • Autorzy nie mogą ujawnić nazwy firmy e-commerce

Ground Truth Challenges:

  • Labeling oparty na założeniach (employee = human, cloud IP = bot)
  • Może miss sophisticated bots (które nie używają cloud providers)
  • Heuristics dodają 13,556 bot labels (recall 0.9988, 9 false positives)

Strengths:

  • Skala: 40M monthly visits - real-world production scale
  • Realism: Prawdziwy ruch e-commerce (nie lab/synthetic data)
  • Semi-supervised: 90.7% unlabeled - realistyczne dla ML deployment
  • Behavioral richness: WT graphs capture navigation patterns
  • High-value platform: 500M-1B USD revenue - diverse bot types

Potencjalne alternatywy (dla replikacji badania #20):

  • Zbieranie własnego traffic log (partnerstwo z e-commerce)
  • Kaggle/UCI clickstream datasets (jeśli dostępne)
  • Symulacja bot traffic (Selenium/Puppeteer) + real user data

Tagi

dataset bot-detection ecommerce web-traffic behavioral-data proprietary semi-supervised website-traversal-graphs adobe-analytics