FinGraph
Informacje podstawowe
- Nazwa: FinGraph Dataset
- Alias: 7th Finvolution Competition Dataset, FinGraph HTG
- Dziedzina: Fraud Detection, Financial Security, Credit Risk
- Typ: Heterogeneous Temporal Graph (HTG)
Źródło
- URL: Publicznie dostępny (7th Finvolution Competition)
- Paper: Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph (Xu et al., 2024) - używany jako benchmark
- Organizacja: Finvolution (7th Competition)
- Rok: Nieznany (użyty w badaniach 2024)
Charakterystyka
- Rozmiar:
- 4.1M węzłów
- 5M krawędzi
- 11 typów krawędzi
- Podział: Nie określono
- Klasy/Kategorie: Binary (oszuści vs normalni użytkownicy)
- Format: Heterogeniczny graf czasowy (HTG), anonimizowany
- Licencja: Publiczny (competition dataset)
- Etykiety: 82K etykiet (1K oszustów, 81K normalnych) - severe class imbalance ~1.2% oszustów
Opis
FinGraph to wielkoskalowy publiczny zbiór danych finansowych z 7th Finvolution Competition, wykorzystywany jako benchmark do wykrywania oszustów finansowych. Dataset jest reprezentowany jako heterogeniczny graf czasowy (HTG) z anonimizowanymi węzłami i 11 różnymi typami relacji/krawędzi.
W przeciwieństwie do WeChat dataset (crowdsourcing fraud), FinGraph koncentruje się na oszustwach finansowych w szerszym kontekście (kredyty, transakcje). Graf zawiera dynamiczne wzorce temporalne pozwalające na analizę ewolucji zachowań oszukańczych w czasie.
Odkryte wzorce oszustów w FinGraph:
- Oszuści mają innych oszustów w 2-hop sąsiedztwie (homophily pattern)
- Krawędzie oszustów mają krótkie zakresy TS (concentrated time period) - aktywność skoncentrowana w czasie
- Typy krawędzi oszustów zwiększają się wraz z TS - eskalacja aktywności przed wykryciem
Zastosowania
- Wykrywanie oszustów finansowych
- Analiza ryzyka kredytowego
- Modelowanie dynamiki sieci finansowych
- Transfer learning między domenami fraud detection
- Testowanie generalizacji metod GNN
- Benchmark dla heterogenicznych grafów czasowych
Używany w publikacjach
- Crowdsourcing Fraud Detection over Heterogeneous Temporal MMMA Graph - CMT osiągnęło AUC 0.8354, KS 0.5720 (vs HG-Encoder: AUC 0.8194). Potwierdza transferowalność metody CMT do innych zadań wykrywania anomalii grafowych poza crowdsourcing fraud.
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| CMT | AUC | 0.8354 | 2024 | Xu et al. ACM |
| CMT | KS | 0.5720 | 2024 | Xu et al. ACM |
| HG-Encoder | AUC | 0.8194 | 2024 | Xu et al. (baseline) |
| HG-Encoder | KS | 0.5485 | 2024 | Xu et al. (baseline) |
Uwagi
- Publiczny dataset: Dostępny dla badaczy (7th Finvolution Competition)
- Severe class imbalance: ~1.2% oszustów (1K) vs 98.8% normalnych (81K) - większa nierównowaga niż WeChat
- Transferowalność: CMT wytrenowany na WeChat dobrze generalizuje na FinGraph → metoda działa cross-domain
- 11 typów krawędzi: Bardziej heterogeniczny niż WeChat (7 typów relacji)
- Anonimizacja: Dataset jest anonimizowany (competition requirements)
- Temporal patterns: Oszuści wykazują charakterystyczne wzorce temporalne (krótkie zakresy TS, eskalacja typów krawędzi)
- 2-hop homophily: Oszuści tworzą klastry w grafie (2-hop neighborhood enrichment)
- Benchmark quality: Używany do walidacji cross-domain generalization metod GNN
- Wielkoskalowy: 4.1M węzłów pozwala testować skalowalność algorytmów
Tagi
dataset fraud-detection financial-security credit-risk heterogeneous-graph temporal-graph benchmark finvolution competition public graph-neural-networks cross-domain large-scale