Cora Citation Network

Informacje podstawowe

  • Nazwa: Cora Citation Network
  • Alias: Cora
  • Dziedzina: Graph Neural Networks, Citation Analysis
  • Typ: Graph data, citation network

Źródło

Charakterystyka

  • Rozmiar: 2,708 nodes (papers), 5,429 edges (citations)
  • Podział: 140 training nodes (labels), rest for inference
  • Klasy/Kategorie: 7-way classification (types of papers)
  • Format: Graph structure with bag-of-words node features
  • Licencja: Public research dataset

Opis

Cora jest siecią cytowań publikacji naukowych, gdzie każdy węzeł reprezentuje artykuł naukowy, a krawędź reprezentuje cytowanie między dwoma artykułami. Dataset jest powszechnie używany jako benchmark dla metod node classification w Graph Neural Networks.

Każdy węzeł (artykuł) zawiera:

  • Wektor cech bag-of-words reprezentujący zawartość artykułu
  • Ground truth label wskazujący kategorię artykułu (1 z 7 typów)

W standardowym setupie do uczenia dostępnych jest tylko 140 etykiet węzłów, a model musi przewidzieć etykiety pozostałych węzłów wykorzystując strukturę grafu i cechy węzłów.

Zastosowania

  • Node classification w Graph Neural Networks
  • Semi-supervised learning na grafach
  • Link prediction
  • Graph representation learning
  • Badania robustness GNN przeciwko adversarial attacks

Używany w publikacjach

  • xu-edog-adversarial-2023 - Evaluation dataset dla adversarial edge detection, testowanie EDoG pipeline przeciwko różnym typom ataków strukturalnych na GNN

Benchmarki

ModelMetricScoreRokPublikacja
GCN (baseline)Accuracy81.9%2023EDoG (Xu et al.)
GCN (standard)Accuracy~81%2017Kipf & Welling

Uwagi

  • Dataset jest stosunkowo niewielki, co czyni go dobrym benchmark’iem dla szybkiego prototypowania
  • Graf jest stosunkowo gęsty (average degree ~4)
  • Często używany razem z Citeseer i Pubmed jako standardowy zestaw citation network benchmarks
  • W kontekście adversarial attacks: wybrano 10-20 target nodes o różnych degrees dla różnych typów ataków

Tagi

dataset graph-neural-networks citation-network node-classification benchmark