DGraph-Fin

Informacje podstawowe

  • Nazwa: DGraph-Fin
  • Alias: DGraph Finance, DGraph Credit Default Dataset
  • Dziedzina: Fraud Detection, Credit Scoring, Financial Risk Assessment
  • Typ: Graph data (loan guarantor network)

Źródło

  • URL: Dostępny publicznie
  • Paper: DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection (Huang et al., 2022)
  • Organizacja: Finvolution Group, Tsinghua University
  • Rok: 2022

Charakterystyka

  • Rozmiar: 3,700,550 nodes, 4,300,999 edges
  • Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
  • Klasy/Kategorie: Binary (creditworthy users vs credit defaulters)
  • Format: Graph structure with node features
  • Licencja: Publicly available (NeurIPS Datasets and Benchmarks Track 2022)
  • Feature dimension: 17 features (timestamps and user profiles details)

Opis

DGraph-Fin to large-scale financial dataset przeznaczony do credit default detection, stworzony przez Finvolution Group (leading fintech company w Chinach). Dataset reprezentuje loan guarantor network, gdzie nodes to borrowers/users a edges są konstruowane na podstawie guarantor contact information - jeśli dwóch borrowers ma tego samego guarantor, są połączeni edge.

Features obejmują timestamps (loan application time, account creation), user profile details (age, income level, employment status), oraz loan-related information. Dataset jest używany do przewidywania credit default risk wykorzystując graph structure patterns.

Zastosowania

  • Credit default prediction
  • Financial risk assessment
  • Loan default detection
  • Guarantor network analysis
  • Graph-based credit scoring
  • Large-scale financial fraud detection
  • Risk propagation analysis w financial networks

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
GAAPRec@K7.73%2025Duan et al. AAAI-25
BWGNNRec@K7.57%2022Tang et al.
DGA-GNNRec@K7.52%2024Duan et al.
BGNNRec@K7.70%2021Ivanov et al.
GATRec@K7.14%2018Veličković et al.
GCNRec@K7.05%2017Kipf & Welling
XGBGraphRec@K6.96%2024Tang et al. GADBench

Uwagi

  • Most challenging dataset: Wszystkie methods < 8% Rec@K
  • Relation concept: Loan Guarantor (timestamps and user profiles details)
  • Largest dataset by number of nodes (3.7M) w GAAP experiments
  • Sparse graph: 4.3M edges dla 3.7M nodes (avg degree ~1.16)
  • Severe class imbalance lub very complex fraud patterns
  • Real-world industrial dataset z Finvolution Group (production environment)
  • Part of NeurIPS 2022 Datasets and Benchmarks Track

Tagi

dataset fraud-detection credit-scoring financial-risk loan-default graph-data large-scale fintech benchmark neurips