Pomysły badawcze

Ostatnia aktualizacja: 2026-05-12


🔥 Wysokie priorytety

[#BD-1] BOTracle Replication: Benchmark Bot Detection Methods na Real E-Commerce Traffic

Status: new Priorytet: high Dodano: 2026-04-29 Bazuje na: BOTracle Kadel et al. 2024

Gap w BOTracle (2024):

  • 98% precision/recall/AUC ale proprietary dataset (40M wizyt, nie publiczny)
  • Brak szczegółów implementacji
  • Pytanie: Czy można odtworzyć wyniki na publicznym zbiorze?

Proponowane badanie:

  1. Zebrać 100K sesji e-commerce (partnerstwo 1-2 sklepy)
  2. Implementacja 3 metod BOTracle: Heuristic, Technical Features, Behavioral
  3. Dodać 2 metody benchmark: GraphSAGE GNN, LSTM
  4. Ground truth: CAPTCHA + honeypot + manual verification

M1: Heuristic - user-agent parsing, request rate, session duration M2: Technical Features - IP, window size, user-agent, HTTP headers M3: Behavioral - click patterns, scroll, mouse movement, navigation M4: GraphSAGE GNN (własny, nodes=sessions, edges=IP/UA similarity) M5: LSTM Sequence Model (page views, timestamps, actions)

Wkład badawczy:

  • Pierwsza publiczna reprodukcja BOTracle
  • Publiczny zbiór danych: 100K sesji z etykietami bot/human
  • Cost-benefit analysis: Precision vs latency vs compute

Zbiory danych: Własny (100K sesji, partnerstwo)

Szacowany czas: 3 miesiące


[#BD-2] DataLayer-Based Fraud Detection: Client-Side Event Analysis dla E-Commerce Security

Status: new Priorytet: high Dodano: 2026-04-29 Bazuje na: SoK Web Tracking 2025, window.dataLayer specs

Gap:

  • window.dataLayer (GA4/GTM) używany tylko do analytics - nie do security
  • Pytanie: Czy GA4 events mogą wykrywać boty/fraud w czasie rzeczywistym?

Proponowane badanie:

  1. Interception window.dataLayer.push() hooking
  2. Events: page_view, add_to_cart, purchase, form_submit
  3. Cechy behawioralne:
    • Temporal: event sequence, time-to-action (<2s = bot), burst rate
    • Product: cart diversity, price variance, add-remove cycles
    • Session: event count, missing scrolls, form autofill speed
  4. Modele: Isolation Forest, LSTM, Random Forest, Rule-based
  5. Zebrać 100K sesji (50K human, 50K bot - Selenium/Puppeteer)

Wkład badawczy:

  • Pierwsza aplikacja window.dataLayer do fraud/bot detection
  • Zero-integration approach: piggyback na GA4/GTM
  • Real-time framework: <100ms inference latency

Zbiory danych: Własny (100K sesji, 2-3 sklepy e-commerce)

Szacowany czas: 3-4 miesiące


📌 Średnie priorytety

(brak - dodaj podczas eksploracji literatury)


📊 Statystyki projektu

  • Łącznie: 2 pomysły
  • High: 2 (#BD-1, BD-2)
  • Medium: 0
  • Low: 0