T-Social

Informacje podstawowe

  • Nazwa: T-Social
  • Alias: T-Soc, Transaction Social Dataset
  • Dziedzina: Fraud Detection, Social Networks, Cybersecurity
  • Typ: Graph data (social network)

Źródło

  • URL: Dostępny przez GADBench
  • Paper: Rethinking graph neural networks for anomaly detection (Tang et al., 2022)
  • Organizacja: Michigan State University
  • Rok: 2022

Charakterystyka

  • Rozmiar: 5,781,065 nodes, 73,105,508 edges
  • Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
  • Klasy/Kategorie: Binary (legitimate accounts vs abnormal accounts)
  • Format: Graph structure with node features
  • Licencja: Available through GADBench
  • Feature dimension: 10 features (user profile details such as logging activities)

Opis

T-Social to largest dataset w GADBench suite, przeznaczony do wykrywania abnormalnych kont w sieciach społecznościowych. Dataset reprezentuje social network jako graf, gdzie węzły to user accounts a krawędzie to social friendship connections.

Cechy węzłów zawierają user profile details takie jak logging activities, account creation time, behavioral patterns i engagement metrics. Dataset jest szczególnie challenging ze względu na massive scale (5.7M nodes, 73M edges).

Zastosowania

  • Social network fraud detection
  • Bot/fake account detection
  • Spam account identification
  • Large-scale graph anomaly detection
  • Scalability testing dla GNN methods
  • Benchmarking fraud detection algorithms

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
GAAPRec@K97.25%2025Duan et al. AAAI-25
BGNNRec@K96.89%2021Ivanov et al.
DGA-GNNRec@K95.97%2024Duan et al.
XGBGraphRec@K93.53%2024Tang et al. GADBench
RFGraphRec@K93.58%2024Tang et al. GADBench
GHRNRec@K82.33%2023Gao et al.
PMPRec@K81.11%2024Zhuo et al.

Uwagi

  • Largest dataset w GADBench suite (5.7M nodes, 73M edges)
  • Graph structure is critical: Removing GNN causes dramatic performance drop (97.05% → 23.32%)
  • Relation concept: Social Friendship (user profile details such as logging activities)
  • Testing ground dla scalability of fraud detection methods
  • Part of GADBench benchmark suite
  • Bardzo wysoka accuracy możliwa (97%+) dzięki strong graph structure signals

Tagi

dataset fraud-detection social-networks graph-data large-scale bot-detection fake-accounts gadbench benchmark