WeChat Crowdsourcing Fraud Dataset
Informacje podstawowe
- Nazwa: WeChat Crowdsourcing Fraud Dataset
- Alias: WeChat HTG, WeChat MMMA Graph
- Dziedzina: Fraud Detection, Crowdsourcing Security, Social Network Analysis
- Typ: Heterogeneous Temporal Graph (HTG)
Źródło
- URL: Proprietary (wymaga zgody Tencent)
- Paper: Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph (Xu et al., 2024)
- Organizacja: Tencent WeChat Team
- Rok: 2024
Charakterystyka
- Rozmiar:
- 6.8M węzłów użytkowników
- 151K grup WeChat
- 126K urządzeń
- 29.7M krawędzi
- 14 snapshotów czasowych (1 dzień = 1 snapshot)
- Podział: Nie określono (production deployment)
- Klasy/Kategorie: Binary (oszuści crowdsourcingowi vs normalni użytkownicy)
- Format: Heterogeniczny graf czasowy z 3 typami węzłów i 7 typami relacji
- Licencja: Proprietary - permission-based access
- Etykiety: 53,660 etykiet (10,749 oszustów, 42,911 normalnych) - class imbalance ~20% oszustów
Opis
WeChat Crowdsourcing Fraud Dataset to przemysłowy zbiór danych z platformy WeChat reprezentujący interakcje użytkowników w kontekście oszustw crowdsourcingowych (click farms). Dataset modelowany jest jako Heterogeniczny Graf Czasowy (HTG) z trzema typami węzłów:
- Użytkownicy: osoby korzystające z platformy
- Grupy: grupy WeChat (potencjalne farmy kliknięć)
- Urządzenia: urządzenia mobilne używane do logowania
Graf zawiera 7 typów relacji behawioralnych:
- CREATE: użytkownik tworzy grupę
- ENTER: użytkownik dołącza do grupy
- LOGIN: użytkownik loguje się z urządzenia
- PULL: użytkownik zaciąga inne osoby do grupy
- SEND: użytkownik wysyła wiadomość w grupie
- ADD: użytkownik dodaje kontakt
- TRANSFER: użytkownik wykonuje transfer pieniędzy
Każdy snapshot temporalny reprezentuje 1 dzień aktywności, pozwalając na modelowanie dynamicznych wzorców oszustw w czasie.
Zastosowania
- Wykrywanie oszustw crowdsourcingowych (click farms)
- Analiza farm kliknięć w aplikacjach MMMA
- Modelowanie dynamiki sieci społecznościowych
- Wykrywanie wzorców behawioralnych oszustów
- Graph Neural Networks dla heterogenicznych grafów czasowych
- Samo-nadzorowane uczenie na grafach
- Indukcyjne uczenie dla nowych użytkowników
Używany w publikacjach
- Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph - CMT osiągnęło AUC 0.9014, KS 0.6624 (precision wzrosła z 0.82 do 0.86 przy recall=0.27 dla nowych/gościnnych kupujących). Pierwszy system wykorzystujący soft links (podobieństwo behawioralne) zamiast hard links (IP, device).
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| CMT | AUC | 0.9014 | 2024 | Xu et al. ACM |
| CMT | KS | 0.6624 | 2024 | Xu et al. ACM |
| HG-Encoder | AUC | 0.8682 | 2024 | Xu et al. (baseline) |
| HG-Encoder | KS | 0.5905 | 2024 | Xu et al. (baseline) |
| TSS-Encoder | AUC | ~0.8882 | 2024 | Xu et al. (ablation) |
| URS-Encoder | AUC | ~0.8942 | 2024 | Xu et al. (ablation) |
Uwagi
- Proprietary dataset: Nie jest publicznie dostępny - wymaga zgody Tencent
- Przemysłowa skala: Wdrożony w produkcji na platformie WeChat
- Charakterystyczne wzorce oszustów: 4-stopniowy proces (ADD → PULL → TRANSFER → DISAPPEAR)
- Soft links: Pierwsza implementacja połączeń opartych na podobieństwie behawioralnym (GPU-based HDBSCAN clustering)
- Indukcyjne uczenie: Model może handle nowych użytkowników pojawiających się codziennie
- Contrastive learning: Zmniejsza zależność od nadzoru przy ograniczonych etykietach
- Class imbalance: ~20% oszustów (10,749) vs 80% normalnych (42,911)
- Temporal dynamics: 14 snapshotów czasowych pozwala modelować ewolucję zachowań
- Privacy-preserving: Model NIE wykorzystuje zawartości wiadomości (privacy concerns)
- Kod open-source: https://github.com/KDEGroup/CMT (architektura CMT dostępna publicznie)
Tagi
dataset fraud-detection crowdsourcing wechat mmma heterogeneous-graph temporal-graph social-network click-farms graph-neural-networks contrastive-learning production tencent proprietary