Alibaba Click Fraud Dataset

Informacje podstawowe

  • Nazwa: Alibaba Click Fraud Dataset
  • Alias: Alibaba Click Fraud Detection Dataset
  • Dziedzina: E-commerce, Fraud Detection
  • Typ: tabular (structured data)

Źródło

  • Organizacja: Alibaba Group
  • Platforma: Alibaba.com
  • Paper: “Multimodal and Contrastive Learning for Click Fraud Detection” (Li et al., 2021)
  • Rok: 2021
  • Dostępność: Ograniczona (prywatny dataset Alibaby, dostępny tylko do badań akademickich)

Charakterystyka

  • Rozmiar: 3,29 miliona kliknięć łącznie
    • Trening: 2,54 miliona kliknięć (276,956 pozytywnych - 10,89%)
    • Test: 0,75 miliona kliknięć (75,999 pozytywnych - 10,17%)
  • Imbalans: Niezrównoważony zbiór danych (~10% oszustw, ~90% autentycznych)
  • Format: Strukturyzowane dane tabelaryczne
  • Atrybuty:
    • Cechy statystyczne (CdTime, liczba kliknięć na IP, itp.)
    • Cechy kategoryczne (AdvertiserID, KeywordID, PageType)
    • Sekwencje behawioralne (historia odwiedzonych stron - do 300 kroków)
    • Atrybuty sieci (IP, CookieID, DeviceID z 542 atrybutami każdy)
    • Relacje mediów (z 90 atrybutami każda)

Opis

Rzeczywisty zbiór danych zbierający kliknięcia z platformy Alibaba.com w zgodzie z polityką bezpieczeństwa i prywatności. Dataset zawiera bogatą informację behawioralną, w tym logi kliknięć i relacje mediów zebrane w porządku chronologicznym.

Etykiety (czy klick jest oszustem czy autentyczny) zostały pozyskane poprzez:

  1. Wstępną prognozę przy użyciu modeli o wysokiej precyzji wdrożonych online
  2. Manualną ocenę i podwójne sprawdzenie offline

Dataset reprezentuje rzeczywiste wyzwania w detekcji oszustw kliknięć:

  • Zaawansowane oszustwa imitujące autentyczne zachowanie
  • Oszustwa grupowe gdzie wielu oszustów atakuje konkretnego reklamodawcę
  • Oszuści zmieniający IP i czyści cookies aby ukryć swoje charakterystyki
  • Wysokie niezrównoważenie klasy (zaledwie ~10% oszustw)

Charakterystyki Fraudsterów vs Autentyczni Użytkownicy

Cechy Statystyczne

  • Kliknięcia na IP dziennie: Fraudsterzy mają znacznie więcej (54,69% ma ≥10 kliknięć vs 11,53% autentyczni)
  • Przedział czasowy (Click Time - Cookie Time): Fraudsterzy mają krótsze przedziały (40,81% ≤900 sekund vs 24,78% autentyczni)

Zachowanie Przeglądarki

  • Typy stron: >99% fraudsterów na homepage, detail i list pages vs bardziej zróżnicowany rozkład dla autentycznych
  • Sekwencje behawioralne: Fraudsterzy wykazują mniej naturalne, bardziej powtarzalne sekwencje

Sieć Mediów

  • Powiązane media: 21,86% fraudsterów ma ≥3 powiązane media (IP/CookieID/DeviceID) vs 6,31% autentycznych

Zastosowania

  • Detekcja oszustw kliknięć w systemach reklam online
  • Ewaluacja metod multimodalnych w klasyfikacji tabularnej
  • Badanie skuteczności contrastive learning dla danych niezrównoważonych
  • Testowanie architektur łączących Wide & Deep, sekwencje behawioralne i sieci grafowe
  • Benchmarking modeli do wykrywania anomalii w e-commerce

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
Random ForestF1-score0.5502021Li et al. (MCCF)
LightGBMF1-score0.5672021Li et al. (MCCF)
GraphSAGEF1-score0.6992021Li et al. (MCCF)
BiLSTMF1-score0.6412021Li et al. (MCCF)
TextCNNF1-score0.7472021Li et al. (MCCF)
BERTF1-score0.7602021Li et al. (MCCF)
MCCFF1-score0.9162021Li et al. (MCCF)
MCCFAUC0.9332021Li et al. (MCCF)

Uwagi

  • Dataset jest własnością Alibaby i dostępny wyłącznie do badań akademickich na warunkach umowy
  • Dane są przechowywane chronologicznie, co jest ważne dla realistycznej ewaluacji
  • Niezrównoważenie klasy (~10% pozytywnych) jest charakterystyczne dla rzeczywistych problemów detekcji oszustw
  • Sekwencje behawioralne sięgają do 300 kroków (stron), co pozwala na głęboką analizę wzorów zachowania
  • Heterogeniczna sieć mediów z 542 atrybutami na węzeł i 90 atrybutami na relację umożliwia zaawansowane modelowanie grafowe

Tagi

dataset fraud-detection ecommerce click-fraud alibaba imbalanced-data tabular behavioral-sequences heterogeneous-network multimodal