Alibaba Click Fraud Dataset

Informacje podstawowe

Nazwa: Alibaba Click Fraud Dataset
Alias: Alibaba Click Fraud Detection Dataset
Dziedzina: E-commerce, Fraud Detection
Typ: tabular (structured data)

Źródło

Organizacja: Alibaba Group
Platforma: Alibaba.com
Paper: “Multimodal and Contrastive Learning for Click Fraud Detection” (Li et al., 2021)
Rok: 2021
Dostępność: Ograniczona (prywatny dataset Alibaby, dostępny tylko do badań akademickich)

Charakterystyka

Rozmiar: 3,29 miliona kliknięć łącznie
- Trening: 2,54 miliona kliknięć (276,956 pozytywnych - 10,89%)
- Test: 0,75 miliona kliknięć (75,999 pozytywnych - 10,17%)
Imbalans: Niezrównoważony zbiór danych (~10% oszustw, ~90% autentycznych)
Format: Strukturyzowane dane tabelaryczne
Atrybuty:
- Cechy statystyczne (CdTime, liczba kliknięć na IP, itp.)
- Cechy kategoryczne (AdvertiserID, KeywordID, PageType)
- Sekwencje behawioralne (historia odwiedzonych stron - do 300 kroków)
- Atrybuty sieci (IP, CookieID, DeviceID z 542 atrybutami każdy)
- Relacje mediów (z 90 atrybutami każda)

Opis

Rzeczywisty zbiór danych zbierający kliknięcia z platformy Alibaba.com w zgodzie z polityką bezpieczeństwa i prywatności. Dataset zawiera bogatą informację behawioralną, w tym logi kliknięć i relacje mediów zebrane w porządku chronologicznym.

Etykiety (czy klick jest oszustem czy autentyczny) zostały pozyskane poprzez:

Wstępną prognozę przy użyciu modeli o wysokiej precyzji wdrożonych online
Manualną ocenę i podwójne sprawdzenie offline

Dataset reprezentuje rzeczywiste wyzwania w detekcji oszustw kliknięć:

Zaawansowane oszustwa imitujące autentyczne zachowanie
Oszustwa grupowe gdzie wielu oszustów atakuje konkretnego reklamodawcę
Oszuści zmieniający IP i czyści cookies aby ukryć swoje charakterystyki
Wysokie niezrównoważenie klasy (zaledwie ~10% oszustw)

Charakterystyki Fraudsterów vs Autentyczni Użytkownicy

Cechy Statystyczne

Kliknięcia na IP dziennie: Fraudsterzy mają znacznie więcej (54,69% ma ≥10 kliknięć vs 11,53% autentyczni)
Przedział czasowy (Click Time - Cookie Time): Fraudsterzy mają krótsze przedziały (40,81% ≤900 sekund vs 24,78% autentyczni)

Zachowanie Przeglądarki

Typy stron: >99% fraudsterów na homepage, detail i list pages vs bardziej zróżnicowany rozkład dla autentycznych
Sekwencje behawioralne: Fraudsterzy wykazują mniej naturalne, bardziej powtarzalne sekwencje

Sieć Mediów

Powiązane media: 21,86% fraudsterów ma ≥3 powiązane media (IP/CookieID/DeviceID) vs 6,31% autentycznych

Zastosowania

Detekcja oszustw kliknięć w systemach reklam online
Ewaluacja metod multimodalnych w klasyfikacji tabularnej
Badanie skuteczności contrastive learning dla danych niezrównoważonych
Testowanie architektur łączących Wide & Deep, sekwencje behawioralne i sieci grafowe
Benchmarking modeli do wykrywania anomalii w e-commerce

Używany w publikacjach

[Multimodal and Contrastive Learning for Click Fraud Detection] - Rzeczywisty zbiór danych z platformy Alibaba.com do ewaluacji modelu MCCF. Wykazano 7,2% wzrost AUC i 15,6% wzrost F1-score w porównaniu z metodami istniejącymi.

Benchmarki

Model	Metric	Score	Rok	Publikacja
Random Forest	F1-score	0.550	2021	Li et al. (MCCF)
LightGBM	F1-score	0.567	2021	Li et al. (MCCF)
GraphSAGE	F1-score	0.699	2021	Li et al. (MCCF)
BiLSTM	F1-score	0.641	2021	Li et al. (MCCF)
TextCNN	F1-score	0.747	2021	Li et al. (MCCF)
BERT	F1-score	0.760	2021	Li et al. (MCCF)
MCCF	F1-score	0.916	2021	Li et al. (MCCF)
MCCF	AUC	0.933	2021	Li et al. (MCCF)

Uwagi

Dataset jest własnością Alibaby i dostępny wyłącznie do badań akademickich na warunkach umowy
Dane są przechowywane chronologicznie, co jest ważne dla realistycznej ewaluacji
Niezrównoważenie klasy (~10% pozytywnych) jest charakterystyczne dla rzeczywistych problemów detekcji oszustw
Sekwencje behawioralne sięgają do 300 kroków (stron), co pozwala na głęboką analizę wzorów zachowania
Heterogeniczna sieć mediów z 542 atrybutami na węzeł i 90 atrybutami na relację umożliwia zaawansowane modelowanie grafowe

Tagi

dataset fraud-detection ecommerce click-fraud alibaba imbalanced-data tabular behavioral-sequences heterogeneous-network multimodal

Research

Przeglądaj

Alibaba Click Fraud Dataset

Alibaba Click Fraud Dataset

Informacje podstawowe

Źródło

Charakterystyka

Opis

Charakterystyki Fraudsterów vs Autentyczni Użytkownicy

Cechy Statystyczne

Zachowanie Przeglądarki

Sieć Mediów

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Tagi

Graf

Spis treści