WeChat Crowdsourcing Fraud Dataset

Informacje podstawowe

Nazwa: WeChat Crowdsourcing Fraud Dataset
Alias: WeChat HTG, WeChat MMMA Graph
Dziedzina: Fraud Detection, Crowdsourcing Security, Social Network Analysis
Typ: Heterogeneous Temporal Graph (HTG)

Źródło

URL: Proprietary (wymaga zgody Tencent)
Paper: Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph (Xu et al., 2024)
Organizacja: Tencent WeChat Team
Rok: 2024

Charakterystyka

Rozmiar:
- 6.8M węzłów użytkowników
- 151K grup WeChat
- 126K urządzeń
- 29.7M krawędzi
- 14 snapshotów czasowych (1 dzień = 1 snapshot)
Podział: Nie określono (production deployment)
Klasy/Kategorie: Binary (oszuści crowdsourcingowi vs normalni użytkownicy)
Format: Heterogeniczny graf czasowy z 3 typami węzłów i 7 typami relacji
Licencja: Proprietary - permission-based access
Etykiety: 53,660 etykiet (10,749 oszustów, 42,911 normalnych) - class imbalance ~20% oszustów

Opis

WeChat Crowdsourcing Fraud Dataset to przemysłowy zbiór danych z platformy WeChat reprezentujący interakcje użytkowników w kontekście oszustw crowdsourcingowych (click farms). Dataset modelowany jest jako Heterogeniczny Graf Czasowy (HTG) z trzema typami węzłów:

Użytkownicy: osoby korzystające z platformy
Grupy: grupy WeChat (potencjalne farmy kliknięć)
Urządzenia: urządzenia mobilne używane do logowania

Graf zawiera 7 typów relacji behawioralnych:

CREATE: użytkownik tworzy grupę
ENTER: użytkownik dołącza do grupy
LOGIN: użytkownik loguje się z urządzenia
PULL: użytkownik zaciąga inne osoby do grupy
SEND: użytkownik wysyła wiadomość w grupie
ADD: użytkownik dodaje kontakt
TRANSFER: użytkownik wykonuje transfer pieniędzy

Każdy snapshot temporalny reprezentuje 1 dzień aktywności, pozwalając na modelowanie dynamicznych wzorców oszustw w czasie.

Zastosowania

Wykrywanie oszustw crowdsourcingowych (click farms)
Analiza farm kliknięć w aplikacjach MMMA
Modelowanie dynamiki sieci społecznościowych
Wykrywanie wzorców behawioralnych oszustów
Graph Neural Networks dla heterogenicznych grafów czasowych
Samo-nadzorowane uczenie na grafach
Indukcyjne uczenie dla nowych użytkowników

Używany w publikacjach

Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph - CMT osiągnęło AUC 0.9014, KS 0.6624 (precision wzrosła z 0.82 do 0.86 przy recall=0.27 dla nowych/gościnnych kupujących). Pierwszy system wykorzystujący soft links (podobieństwo behawioralne) zamiast hard links (IP, device).

Benchmarki

Model	Metric	Score	Rok	Publikacja
CMT	AUC	0.9014	2024	Xu et al. ACM
CMT	KS	0.6624	2024	Xu et al. ACM
HG-Encoder	AUC	0.8682	2024	Xu et al. (baseline)
HG-Encoder	KS	0.5905	2024	Xu et al. (baseline)
TSS-Encoder	AUC	~0.8882	2024	Xu et al. (ablation)
URS-Encoder	AUC	~0.8942	2024	Xu et al. (ablation)

Uwagi

Proprietary dataset: Nie jest publicznie dostępny - wymaga zgody Tencent
Przemysłowa skala: Wdrożony w produkcji na platformie WeChat
Charakterystyczne wzorce oszustów: 4-stopniowy proces (ADD → PULL → TRANSFER → DISAPPEAR)
Soft links: Pierwsza implementacja połączeń opartych na podobieństwie behawioralnym (GPU-based HDBSCAN clustering)
Indukcyjne uczenie: Model może handle nowych użytkowników pojawiających się codziennie
Contrastive learning: Zmniejsza zależność od nadzoru przy ograniczonych etykietach
Class imbalance: ~20% oszustów (10,749) vs 80% normalnych (42,911)
Temporal dynamics: 14 snapshotów czasowych pozwala modelować ewolucję zachowań
Privacy-preserving: Model NIE wykorzystuje zawartości wiadomości (privacy concerns)
Kod open-source: https://github.com/KDEGroup/CMT (architektura CMT dostępna publicznie)

Tagi

dataset fraud-detection crowdsourcing wechat mmma heterogeneous-graph temporal-graph social-network click-farms graph-neural-networks contrastive-learning production tencent proprietary

Research

Przeglądaj

WeChat Crowdsourcing Fraud Dataset

WeChat Crowdsourcing Fraud Dataset

Informacje podstawowe

Źródło

Charakterystyka

Opis

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Tagi

Graf

Spis treści