Elliptic Bitcoin Transaction Dataset

Informacje podstawowe

  • Nazwa: Elliptic
  • Alias: Elliptic Bitcoin Dataset, Elliptic Transaction Graph
  • Dziedzina: Fraud Detection, Cryptocurrency, Anti-Money Laundering, Blockchain
  • Typ: Graph data (Bitcoin transaction network)

Źródło

  • URL: Publicznie dostępny
  • Paper: Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics (Weber et al., 2019)
  • Organizacja: MIT-IBM Watson AI Lab, Elliptic (company)
  • Rok: 2019

Charakterystyka

  • Rozmiar: 203,769 nodes, 234,355 edges
  • Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
  • Klasy/Kategorie: Binary (licit transactions vs illicit transactions)
  • Format: Graph structure with node features
  • Licencja: Publicly available
  • Feature dimension: 166 features (timestamps and transaction information)

Opis

Elliptic Bitcoin Transaction Dataset jest przeznaczony do wykrywania nielegalnych transakcji Bitcoin, szczególnie w kontekście money laundering i other financial crimes. Dataset reprezentuje Bitcoin transaction flow jako directed graph, gdzie nodes to Bitcoin transactions a edges to payment flows między nimi.

Dataset zawiera 166 features opisujących transaction metadata, timestamps, transaction amounts, aggregated features z neighbors. Jest to jeden z najbardziej feature-rich datasets w fraud detection domain. Transactions są etykietowane jako licit lub illicit na podstawie forensic analysis i known criminal activities.

Zastosowania

  • Illicit Bitcoin transaction detection
  • Anti-Money Laundering (AML) w cryptocurrency
  • Financial forensics
  • Blockchain transaction analysis
  • Graph-based anomaly detection w distributed ledgers
  • Cryptocurrency crime detection

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
GAAPRec@K73.32%2025Duan et al. AAAI-25
DGA-GNNRec@K72.76%2024Duan et al.
RFRec@K72.76%2001Breiman
XGBoostRec@K72.58%2016Chen & Guestrin
RFGraphRec@K72.58%2024Tang et al. GADBench
XGBGraphRec@K71.93%2024Tang et al. GADBench
NARec@K71.74%2016Yang et al.

Uwagi

  • Highest feature dimension (166 features) spośród wszystkich datasets w GADBench
  • Relation concept: Payment Flow (timestamps and transaction information)
  • Medium-sized graph (203k nodes, 234k edges)
  • Real-world financial forensics dataset z labeled illicit activities
  • Challenging dataset: moderate performance (~73%) nawet dla best methods
  • Temporal information w features (timestamps) może być wykorzystane do temporal analysis

Tagi

dataset fraud-detection bitcoin cryptocurrency blockchain anti-money-laundering aml financial-forensics graph-data benchmark