FinGraph

Informacje podstawowe

  • Nazwa: FinGraph Dataset
  • Alias: 7th Finvolution Competition Dataset, FinGraph HTG
  • Dziedzina: Fraud Detection, Financial Security, Credit Risk
  • Typ: Heterogeneous Temporal Graph (HTG)

Źródło

  • URL: Publicznie dostępny (7th Finvolution Competition)
  • Paper: Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph (Xu et al., 2024) - używany jako benchmark
  • Organizacja: Finvolution (7th Competition)
  • Rok: Nieznany (użyty w badaniach 2024)

Charakterystyka

  • Rozmiar:
    • 4.1M węzłów
    • 5M krawędzi
    • 11 typów krawędzi
  • Podział: Nie określono
  • Klasy/Kategorie: Binary (oszuści vs normalni użytkownicy)
  • Format: Heterogeniczny graf czasowy (HTG), anonimizowany
  • Licencja: Publiczny (competition dataset)
  • Etykiety: 82K etykiet (1K oszustów, 81K normalnych) - severe class imbalance ~1.2% oszustów

Opis

FinGraph to wielkoskalowy publiczny zbiór danych finansowych z 7th Finvolution Competition, wykorzystywany jako benchmark do wykrywania oszustów finansowych. Dataset jest reprezentowany jako heterogeniczny graf czasowy (HTG) z anonimizowanymi węzłami i 11 różnymi typami relacji/krawędzi.

W przeciwieństwie do WeChat dataset (crowdsourcing fraud), FinGraph koncentruje się na oszustwach finansowych w szerszym kontekście (kredyty, transakcje). Graf zawiera dynamiczne wzorce temporalne pozwalające na analizę ewolucji zachowań oszukańczych w czasie.

Odkryte wzorce oszustów w FinGraph:

  • Oszuści mają innych oszustów w 2-hop sąsiedztwie (homophily pattern)
  • Krawędzie oszustów mają krótkie zakresy TS (concentrated time period) - aktywność skoncentrowana w czasie
  • Typy krawędzi oszustów zwiększają się wraz z TS - eskalacja aktywności przed wykryciem

Zastosowania

  • Wykrywanie oszustów finansowych
  • Analiza ryzyka kredytowego
  • Modelowanie dynamiki sieci finansowych
  • Transfer learning między domenami fraud detection
  • Testowanie generalizacji metod GNN
  • Benchmark dla heterogenicznych grafów czasowych

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
CMTAUC0.83542024Xu et al. ACM
CMTKS0.57202024Xu et al. ACM
HG-EncoderAUC0.81942024Xu et al. (baseline)
HG-EncoderKS0.54852024Xu et al. (baseline)

Uwagi

  • Publiczny dataset: Dostępny dla badaczy (7th Finvolution Competition)
  • Severe class imbalance: ~1.2% oszustów (1K) vs 98.8% normalnych (81K) - większa nierównowaga niż WeChat
  • Transferowalność: CMT wytrenowany na WeChat dobrze generalizuje na FinGraph → metoda działa cross-domain
  • 11 typów krawędzi: Bardziej heterogeniczny niż WeChat (7 typów relacji)
  • Anonimizacja: Dataset jest anonimizowany (competition requirements)
  • Temporal patterns: Oszuści wykazują charakterystyczne wzorce temporalne (krótkie zakresy TS, eskalacja typów krawędzi)
  • 2-hop homophily: Oszuści tworzą klastry w grafie (2-hop neighborhood enrichment)
  • Benchmark quality: Używany do walidacji cross-domain generalization metod GNN
  • Wielkoskalowy: 4.1M węzłów pozwala testować skalowalność algorytmów

Tagi

dataset fraud-detection financial-security credit-risk heterogeneous-graph temporal-graph benchmark finvolution competition public graph-neural-networks cross-domain large-scale