CiteSeer Citation Network

Informacje podstawowe

  • Nazwa: CiteSeer Citation Network
  • Alias: Citeseer
  • Dziedzina: Graph Neural Networks, Citation Analysis
  • Typ: Graph data, citation network

Źródło

  • URL: https://linqs.soe.ucsc.edu/data
  • Paper: “CiteSeer: An automatic citation indexing system” (Giles et al., 1998)
  • Organizacja: Penn State University
  • Rok: 1998

Charakterystyka

  • Rozmiar: 3,327 nodes (papers), 4,732 edges (citations)
  • Podział: 120 training nodes (labels), rest for inference
  • Klasy/Kategorie: 6-way classification (types of papers)
  • Format: Graph structure with bag-of-words node features
  • Licencja: Public research dataset

Opis

CiteSeer jest siecią cytowań publikacji naukowych z obszaru computer science. Podobnie jak Cora, każdy węzeł reprezentuje artykuł naukowy, a krawędzie reprezentują relacje cytowań między artykułami. Dataset jest standardowym benchmarkiem dla zadań node classification w GNN.

Charakterystyka:

  • Więcej węzłów niż Cora (3,327 vs 2,708)
  • Mniej krawędzi niż Cora (4,732 vs 5,429) - graf bardziej sparse
  • 6-way classification task (jedna klasa mniej niż Cora)
  • Bag-of-words node features
  • Tylko 120 labeled nodes do treningu (vs 140 w Cora)

Graf jest bardziej sparse niż Cora, co czyni niektóre zadania trudniejszymi ale również bardziej realistycznymi.

Zastosowania

  • Node classification w Graph Neural Networks
  • Semi-supervised learning na sparse graphs
  • Link prediction
  • Graph representation learning
  • Testowanie robustness modeli GNN

Używany w publikacjach

  • xu-edog-adversarial-2023 - Evaluation dataset dla adversarial edge detection, szczególnie interesujący ze względu na sparsity która wpływa na performance detection methods

Benchmarki

ModelMetricScoreRokPublikacja
GCN (baseline)Accuracy69.7%2023EDoG (Xu et al.)
GCN (standard)Accuracy~70%2017Kipf & Welling

Uwagi

  • Graf jest bardziej sparse niż Cora (mniej edges mimo więcej nodes)
  • Sparsity wpływa na performance niektórych detection methods - po filtering, mniej informacji pozostaje w grafie
  • W eksperymentach EDoG: multi-edge indirect attack pokazał lepszą detection performance niż na Cora, prawdopodobnie ze względu na sparsity (malicious edges koncentrują się w małej okolicy, więc dalsze subgrafy są czyste)
  • Wybrano 10-20 target nodes dla różnych attack strategies
  • Lower baseline accuracy niż Cora (69.7% vs 81.9%)

Tagi

dataset graph-neural-networks citation-network node-classification sparse-graph benchmark