Elliptic Bitcoin Transaction Dataset
Informacje podstawowe
- Nazwa: Elliptic
- Alias: Elliptic Bitcoin Dataset, Elliptic Transaction Graph
- Dziedzina: Fraud Detection, Cryptocurrency, Anti-Money Laundering, Blockchain
- Typ: Graph data (Bitcoin transaction network)
Źródło
- URL: Publicznie dostępny
- Paper: Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics (Weber et al., 2019)
- Organizacja: MIT-IBM Watson AI Lab, Elliptic (company)
- Rok: 2019
Charakterystyka
- Rozmiar: 203,769 nodes, 234,355 edges
- Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
- Klasy/Kategorie: Binary (licit transactions vs illicit transactions)
- Format: Graph structure with node features
- Licencja: Publicly available
- Feature dimension: 166 features (timestamps and transaction information)
Opis
Elliptic Bitcoin Transaction Dataset jest przeznaczony do wykrywania nielegalnych transakcji Bitcoin, szczególnie w kontekście money laundering i other financial crimes. Dataset reprezentuje Bitcoin transaction flow jako directed graph, gdzie nodes to Bitcoin transactions a edges to payment flows między nimi.
Dataset zawiera 166 features opisujących transaction metadata, timestamps, transaction amounts, aggregated features z neighbors. Jest to jeden z najbardziej feature-rich datasets w fraud detection domain. Transactions są etykietowane jako licit lub illicit na podstawie forensic analysis i known criminal activities.
Zastosowania
- Illicit Bitcoin transaction detection
- Anti-Money Laundering (AML) w cryptocurrency
- Financial forensics
- Blockchain transaction analysis
- Graph-based anomaly detection w distributed ledgers
- Cryptocurrency crime detection
Używany w publikacjach
- Global Attribute-Association Pattern Aggregation for Graph Fraud Detection - GAAP osiągnęło 73.32% Rec@K (best performance, +0.56pp improvement over DGA-GNN). Dataset ma highest feature dimension (166 features) spośród wszystkich 7 datasets.
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| GAAP | Rec@K | 73.32% | 2025 | Duan et al. AAAI-25 |
| DGA-GNN | Rec@K | 72.76% | 2024 | Duan et al. |
| RF | Rec@K | 72.76% | 2001 | Breiman |
| XGBoost | Rec@K | 72.58% | 2016 | Chen & Guestrin |
| RFGraph | Rec@K | 72.58% | 2024 | Tang et al. GADBench |
| XGBGraph | Rec@K | 71.93% | 2024 | Tang et al. GADBench |
| NA | Rec@K | 71.74% | 2016 | Yang et al. |
Uwagi
- Highest feature dimension (166 features) spośród wszystkich datasets w GADBench
- Relation concept: Payment Flow (timestamps and transaction information)
- Medium-sized graph (203k nodes, 234k edges)
- Real-world financial forensics dataset z labeled illicit activities
- Challenging dataset: moderate performance (~73%) nawet dla best methods
- Temporal information w features (timestamps) może być wykorzystane do temporal analysis
Tagi
dataset fraud-detection bitcoin cryptocurrency blockchain anti-money-laundering aml financial-forensics graph-data benchmark