WeChat Crowdsourcing Fraud Dataset

Informacje podstawowe

  • Nazwa: WeChat Crowdsourcing Fraud Dataset
  • Alias: WeChat HTG, WeChat MMMA Graph
  • Dziedzina: Fraud Detection, Crowdsourcing Security, Social Network Analysis
  • Typ: Heterogeneous Temporal Graph (HTG)

Źródło

  • URL: Proprietary (wymaga zgody Tencent)
  • Paper: Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph (Xu et al., 2024)
  • Organizacja: Tencent WeChat Team
  • Rok: 2024

Charakterystyka

  • Rozmiar:
    • 6.8M węzłów użytkowników
    • 151K grup WeChat
    • 126K urządzeń
    • 29.7M krawędzi
    • 14 snapshotów czasowych (1 dzień = 1 snapshot)
  • Podział: Nie określono (production deployment)
  • Klasy/Kategorie: Binary (oszuści crowdsourcingowi vs normalni użytkownicy)
  • Format: Heterogeniczny graf czasowy z 3 typami węzłów i 7 typami relacji
  • Licencja: Proprietary - permission-based access
  • Etykiety: 53,660 etykiet (10,749 oszustów, 42,911 normalnych) - class imbalance ~20% oszustów

Opis

WeChat Crowdsourcing Fraud Dataset to przemysłowy zbiór danych z platformy WeChat reprezentujący interakcje użytkowników w kontekście oszustw crowdsourcingowych (click farms). Dataset modelowany jest jako Heterogeniczny Graf Czasowy (HTG) z trzema typami węzłów:

  • Użytkownicy: osoby korzystające z platformy
  • Grupy: grupy WeChat (potencjalne farmy kliknięć)
  • Urządzenia: urządzenia mobilne używane do logowania

Graf zawiera 7 typów relacji behawioralnych:

  • CREATE: użytkownik tworzy grupę
  • ENTER: użytkownik dołącza do grupy
  • LOGIN: użytkownik loguje się z urządzenia
  • PULL: użytkownik zaciąga inne osoby do grupy
  • SEND: użytkownik wysyła wiadomość w grupie
  • ADD: użytkownik dodaje kontakt
  • TRANSFER: użytkownik wykonuje transfer pieniędzy

Każdy snapshot temporalny reprezentuje 1 dzień aktywności, pozwalając na modelowanie dynamicznych wzorców oszustw w czasie.

Zastosowania

  • Wykrywanie oszustw crowdsourcingowych (click farms)
  • Analiza farm kliknięć w aplikacjach MMMA
  • Modelowanie dynamiki sieci społecznościowych
  • Wykrywanie wzorców behawioralnych oszustów
  • Graph Neural Networks dla heterogenicznych grafów czasowych
  • Samo-nadzorowane uczenie na grafach
  • Indukcyjne uczenie dla nowych użytkowników

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
CMTAUC0.90142024Xu et al. ACM
CMTKS0.66242024Xu et al. ACM
HG-EncoderAUC0.86822024Xu et al. (baseline)
HG-EncoderKS0.59052024Xu et al. (baseline)
TSS-EncoderAUC~0.88822024Xu et al. (ablation)
URS-EncoderAUC~0.89422024Xu et al. (ablation)

Uwagi

  • Proprietary dataset: Nie jest publicznie dostępny - wymaga zgody Tencent
  • Przemysłowa skala: Wdrożony w produkcji na platformie WeChat
  • Charakterystyczne wzorce oszustów: 4-stopniowy proces (ADD → PULL → TRANSFER → DISAPPEAR)
  • Soft links: Pierwsza implementacja połączeń opartych na podobieństwie behawioralnym (GPU-based HDBSCAN clustering)
  • Indukcyjne uczenie: Model może handle nowych użytkowników pojawiających się codziennie
  • Contrastive learning: Zmniejsza zależność od nadzoru przy ograniczonych etykietach
  • Class imbalance: ~20% oszustów (10,749) vs 80% normalnych (42,911)
  • Temporal dynamics: 14 snapshotów czasowych pozwala modelować ewolucję zachowań
  • Privacy-preserving: Model NIE wykorzystuje zawartości wiadomości (privacy concerns)
  • Kod open-source: https://github.com/KDEGroup/CMT (architektura CMT dostępna publicznie)

Tagi

dataset fraud-detection crowdsourcing wechat mmma heterogeneous-graph temporal-graph social-network click-farms graph-neural-networks contrastive-learning production tencent proprietary