Cora Citation Network
Informacje podstawowe
- Nazwa: Cora Citation Network
- Alias: Cora
- Dziedzina: Graph Neural Networks, Citation Analysis
- Typ: Graph data, citation network
Źródło
- URL: https://relational.fit.cvut.cz/dataset/CORA
- Paper: “Automating the construction of internet portals with machine learning” (McCallum et al., 2000)
- Organizacja: Carnegie Mellon University
- Rok: 2000
Charakterystyka
- Rozmiar: 2,708 nodes (papers), 5,429 edges (citations)
- Podział: 140 training nodes (labels), rest for inference
- Klasy/Kategorie: 7-way classification (types of papers)
- Format: Graph structure with bag-of-words node features
- Licencja: Public research dataset
Opis
Cora jest siecią cytowań publikacji naukowych, gdzie każdy węzeł reprezentuje artykuł naukowy, a krawędź reprezentuje cytowanie między dwoma artykułami. Dataset jest powszechnie używany jako benchmark dla metod node classification w Graph Neural Networks.
Każdy węzeł (artykuł) zawiera:
- Wektor cech bag-of-words reprezentujący zawartość artykułu
- Ground truth label wskazujący kategorię artykułu (1 z 7 typów)
W standardowym setupie do uczenia dostępnych jest tylko 140 etykiet węzłów, a model musi przewidzieć etykiety pozostałych węzłów wykorzystując strukturę grafu i cechy węzłów.
Zastosowania
- Node classification w Graph Neural Networks
- Semi-supervised learning na grafach
- Link prediction
- Graph representation learning
- Badania robustness GNN przeciwko adversarial attacks
Używany w publikacjach
- xu-edog-adversarial-2023 - Evaluation dataset dla adversarial edge detection, testowanie EDoG pipeline przeciwko różnym typom ataków strukturalnych na GNN
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| GCN (baseline) | Accuracy | 81.9% | 2023 | EDoG (Xu et al.) |
| GCN (standard) | Accuracy | ~81% | 2017 | Kipf & Welling |
Uwagi
- Dataset jest stosunkowo niewielki, co czyni go dobrym benchmark’iem dla szybkiego prototypowania
- Graf jest stosunkowo gęsty (average degree ~4)
- Często używany razem z Citeseer i Pubmed jako standardowy zestaw citation network benchmarks
- W kontekście adversarial attacks: wybrano 10-20 target nodes o różnych degrees dla różnych typów ataków
Tagi
dataset graph-neural-networks citation-network node-classification benchmark