Alibaba Click Fraud Dataset
Informacje podstawowe
- Nazwa: Alibaba Click Fraud Dataset
- Alias: Alibaba Click Fraud Detection Dataset
- Dziedzina: E-commerce, Fraud Detection
- Typ: tabular (structured data)
Źródło
- Organizacja: Alibaba Group
- Platforma: Alibaba.com
- Paper: “Multimodal and Contrastive Learning for Click Fraud Detection” (Li et al., 2021)
- Rok: 2021
- Dostępność: Ograniczona (prywatny dataset Alibaby, dostępny tylko do badań akademickich)
Charakterystyka
- Rozmiar: 3,29 miliona kliknięć łącznie
- Trening: 2,54 miliona kliknięć (276,956 pozytywnych - 10,89%)
- Test: 0,75 miliona kliknięć (75,999 pozytywnych - 10,17%)
- Imbalans: Niezrównoważony zbiór danych (~10% oszustw, ~90% autentycznych)
- Format: Strukturyzowane dane tabelaryczne
- Atrybuty:
- Cechy statystyczne (CdTime, liczba kliknięć na IP, itp.)
- Cechy kategoryczne (AdvertiserID, KeywordID, PageType)
- Sekwencje behawioralne (historia odwiedzonych stron - do 300 kroków)
- Atrybuty sieci (IP, CookieID, DeviceID z 542 atrybutami każdy)
- Relacje mediów (z 90 atrybutami każda)
Opis
Rzeczywisty zbiór danych zbierający kliknięcia z platformy Alibaba.com w zgodzie z polityką bezpieczeństwa i prywatności. Dataset zawiera bogatą informację behawioralną, w tym logi kliknięć i relacje mediów zebrane w porządku chronologicznym.
Etykiety (czy klick jest oszustem czy autentyczny) zostały pozyskane poprzez:
- Wstępną prognozę przy użyciu modeli o wysokiej precyzji wdrożonych online
- Manualną ocenę i podwójne sprawdzenie offline
Dataset reprezentuje rzeczywiste wyzwania w detekcji oszustw kliknięć:
- Zaawansowane oszustwa imitujące autentyczne zachowanie
- Oszustwa grupowe gdzie wielu oszustów atakuje konkretnego reklamodawcę
- Oszuści zmieniający IP i czyści cookies aby ukryć swoje charakterystyki
- Wysokie niezrównoważenie klasy (zaledwie ~10% oszustw)
Charakterystyki Fraudsterów vs Autentyczni Użytkownicy
Cechy Statystyczne
- Kliknięcia na IP dziennie: Fraudsterzy mają znacznie więcej (54,69% ma ≥10 kliknięć vs 11,53% autentyczni)
- Przedział czasowy (Click Time - Cookie Time): Fraudsterzy mają krótsze przedziały (40,81% ≤900 sekund vs 24,78% autentyczni)
Zachowanie Przeglądarki
- Typy stron: >99% fraudsterów na homepage, detail i list pages vs bardziej zróżnicowany rozkład dla autentycznych
- Sekwencje behawioralne: Fraudsterzy wykazują mniej naturalne, bardziej powtarzalne sekwencje
Sieć Mediów
- Powiązane media: 21,86% fraudsterów ma ≥3 powiązane media (IP/CookieID/DeviceID) vs 6,31% autentycznych
Zastosowania
- Detekcja oszustw kliknięć w systemach reklam online
- Ewaluacja metod multimodalnych w klasyfikacji tabularnej
- Badanie skuteczności contrastive learning dla danych niezrównoważonych
- Testowanie architektur łączących Wide & Deep, sekwencje behawioralne i sieci grafowe
- Benchmarking modeli do wykrywania anomalii w e-commerce
Używany w publikacjach
- [Multimodal and Contrastive Learning for Click Fraud Detection] - Rzeczywisty zbiór danych z platformy Alibaba.com do ewaluacji modelu MCCF. Wykazano 7,2% wzrost AUC i 15,6% wzrost F1-score w porównaniu z metodami istniejącymi.
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| Random Forest | F1-score | 0.550 | 2021 | Li et al. (MCCF) |
| LightGBM | F1-score | 0.567 | 2021 | Li et al. (MCCF) |
| GraphSAGE | F1-score | 0.699 | 2021 | Li et al. (MCCF) |
| BiLSTM | F1-score | 0.641 | 2021 | Li et al. (MCCF) |
| TextCNN | F1-score | 0.747 | 2021 | Li et al. (MCCF) |
| BERT | F1-score | 0.760 | 2021 | Li et al. (MCCF) |
| MCCF | F1-score | 0.916 | 2021 | Li et al. (MCCF) |
| MCCF | AUC | 0.933 | 2021 | Li et al. (MCCF) |
Uwagi
- Dataset jest własnością Alibaby i dostępny wyłącznie do badań akademickich na warunkach umowy
- Dane są przechowywane chronologicznie, co jest ważne dla realistycznej ewaluacji
- Niezrównoważenie klasy (~10% pozytywnych) jest charakterystyczne dla rzeczywistych problemów detekcji oszustw
- Sekwencje behawioralne sięgają do 300 kroków (stron), co pozwala na głęboką analizę wzorów zachowania
- Heterogeniczna sieć mediów z 542 atrybutami na węzeł i 90 atrybutami na relację umożliwia zaawansowane modelowanie grafowe
Tagi
dataset fraud-detection ecommerce click-fraud alibaba imbalanced-data tabular behavioral-sequences heterogeneous-network multimodal