CiteSeer Citation Network
Informacje podstawowe
- Nazwa: CiteSeer Citation Network
- Alias: Citeseer
- Dziedzina: Graph Neural Networks, Citation Analysis
- Typ: Graph data, citation network
Źródło
- URL: https://linqs.soe.ucsc.edu/data
- Paper: “CiteSeer: An automatic citation indexing system” (Giles et al., 1998)
- Organizacja: Penn State University
- Rok: 1998
Charakterystyka
- Rozmiar: 3,327 nodes (papers), 4,732 edges (citations)
- Podział: 120 training nodes (labels), rest for inference
- Klasy/Kategorie: 6-way classification (types of papers)
- Format: Graph structure with bag-of-words node features
- Licencja: Public research dataset
Opis
CiteSeer jest siecią cytowań publikacji naukowych z obszaru computer science. Podobnie jak Cora, każdy węzeł reprezentuje artykuł naukowy, a krawędzie reprezentują relacje cytowań między artykułami. Dataset jest standardowym benchmarkiem dla zadań node classification w GNN.
Charakterystyka:
- Więcej węzłów niż Cora (3,327 vs 2,708)
- Mniej krawędzi niż Cora (4,732 vs 5,429) - graf bardziej sparse
- 6-way classification task (jedna klasa mniej niż Cora)
- Bag-of-words node features
- Tylko 120 labeled nodes do treningu (vs 140 w Cora)
Graf jest bardziej sparse niż Cora, co czyni niektóre zadania trudniejszymi ale również bardziej realistycznymi.
Zastosowania
- Node classification w Graph Neural Networks
- Semi-supervised learning na sparse graphs
- Link prediction
- Graph representation learning
- Testowanie robustness modeli GNN
Używany w publikacjach
- xu-edog-adversarial-2023 - Evaluation dataset dla adversarial edge detection, szczególnie interesujący ze względu na sparsity która wpływa na performance detection methods
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| GCN (baseline) | Accuracy | 69.7% | 2023 | EDoG (Xu et al.) |
| GCN (standard) | Accuracy | ~70% | 2017 | Kipf & Welling |
Uwagi
- Graf jest bardziej sparse niż Cora (mniej edges mimo więcej nodes)
- Sparsity wpływa na performance niektórych detection methods - po filtering, mniej informacji pozostaje w grafie
- W eksperymentach EDoG: multi-edge indirect attack pokazał lepszą detection performance niż na Cora, prawdopodobnie ze względu na sparsity (malicious edges koncentrują się w małej okolicy, więc dalsze subgrafy są czyste)
- Wybrano 10-20 target nodes dla różnych attack strategies
- Lower baseline accuracy niż Cora (69.7% vs 81.9%)
Tagi
dataset graph-neural-networks citation-network node-classification sparse-graph benchmark