CiteSeer Citation Network

Informacje podstawowe

Nazwa: CiteSeer Citation Network
Alias: Citeseer
Dziedzina: Graph Neural Networks, Citation Analysis
Typ: Graph data, citation network

Źródło

URL: https://linqs.soe.ucsc.edu/data
Paper: “CiteSeer: An automatic citation indexing system” (Giles et al., 1998)
Organizacja: Penn State University
Rok: 1998

Charakterystyka

Rozmiar: 3,327 nodes (papers), 4,732 edges (citations)
Podział: 120 training nodes (labels), rest for inference
Klasy/Kategorie: 6-way classification (types of papers)
Format: Graph structure with bag-of-words node features
Licencja: Public research dataset

Opis

CiteSeer jest siecią cytowań publikacji naukowych z obszaru computer science. Podobnie jak Cora, każdy węzeł reprezentuje artykuł naukowy, a krawędzie reprezentują relacje cytowań między artykułami. Dataset jest standardowym benchmarkiem dla zadań node classification w GNN.

Charakterystyka:

Więcej węzłów niż Cora (3,327 vs 2,708)
Mniej krawędzi niż Cora (4,732 vs 5,429) - graf bardziej sparse
6-way classification task (jedna klasa mniej niż Cora)
Bag-of-words node features
Tylko 120 labeled nodes do treningu (vs 140 w Cora)

Graf jest bardziej sparse niż Cora, co czyni niektóre zadania trudniejszymi ale również bardziej realistycznymi.

Zastosowania

Node classification w Graph Neural Networks
Semi-supervised learning na sparse graphs
Link prediction
Graph representation learning
Testowanie robustness modeli GNN

Używany w publikacjach

xu-edog-adversarial-2023 - Evaluation dataset dla adversarial edge detection, szczególnie interesujący ze względu na sparsity która wpływa na performance detection methods

Benchmarki

Model	Metric	Score	Rok	Publikacja
GCN (baseline)	Accuracy	69.7%	2023	EDoG (Xu et al.)
GCN (standard)	Accuracy	~70%	2017	Kipf & Welling

Uwagi

Graf jest bardziej sparse niż Cora (mniej edges mimo więcej nodes)
Sparsity wpływa na performance niektórych detection methods - po filtering, mniej informacji pozostaje w grafie
W eksperymentach EDoG: multi-edge indirect attack pokazał lepszą detection performance niż na Cora, prawdopodobnie ze względu na sparsity (malicious edges koncentrują się w małej okolicy, więc dalsze subgrafy są czyste)
Wybrano 10-20 target nodes dla różnych attack strategies
Lower baseline accuracy niż Cora (69.7% vs 81.9%)

Tagi

dataset graph-neural-networks citation-network node-classification sparse-graph benchmark

Research

Przeglądaj

CiteSeer Citation Network

CiteSeer Citation Network

Informacje podstawowe

Źródło

Charakterystyka

Opis

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Tagi

Graf

Spis treści

Odnośniki zwrotne