YelpChi

Informacje podstawowe

Nazwa: YelpChi
Alias: Yelp Chicago Review Dataset
Dziedzina: Fraud Detection, Social Networks, Opinion Spam Detection
Typ: Graph data (reviewer-review-business network)

Źródło

URL: Dostępny na żądanie od autorów
Paper: Collective Opinion Spam Detection: Bridging Review Networks and Metadata (Rayana & Akoglu, 2015)
Organizacja: Carnegie Mellon University
Rok: 2015

Charakterystyka

Rozmiar: 45,954 nodes, 3,846,979 edges
Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
Klasy/Kategorie: Binary (normal reviews vs abnormal reviews)
Format: Graph structure with node features
Licencja: Request-based access
Feature dimension: 32 hand-crafted review features and statistics

Opis

YelpChi to dataset grafowy przeznaczony do identyfikacji abnormal reviews które unfairly promote lub demote produkty/biznesy na platformie Yelp.com. Dataset reprezentuje recenzje jako graf z węzłami (reviewers, reviews, businesses) i krawędziami (reviewer-review, review-business interactions).

Każdy węzeł ma 32 hand-crafted features opisujące statystyki recenzji, zachowania użytkowników i cechy biznesów. Dataset zawiera etykiety wskazujące czy review jest normalny czy abnormalny (spam, fake review).

Zastosowania

Wykrywanie opinion spam w sieciach recenzji
Graph fraud detection research
Collective behavior analysis w review networks
Benchmarking GNN-based anomaly detection methods

Używany w publikacjach

Global Attribute-Association Pattern Aggregation for Graph Fraud Detection - GAAP osiągnęło 88.54% Rec@K (best performance, +4.31pp improvement over DGA-GNN). Największa poprawa ze wszystkich 7 datasetów. Dataset ma wysoką information density w 32 features, co szczególnie benefituje z Dynamic Binning Embedding module.

Benchmarki

Model	Metric	Score	Rok	Publikacja
GAAP	Rec@K	88.54%	2025	Duan et al. AAAI-25
DGA-GNN	Rec@K	84.23%	2024	Duan et al.
XGBGraph	Rec@K	83.15%	2024	Tang et al. GADBench
RFGraph	Rec@K	75.31%	2024	Tang et al. GADBench
XGBoost	Rec@K	75.08%	2016	Chen & Guestrin
RF	Rec@K	70.23%	2001	Breiman
PMP	Rec@K	61.69%	2024	Zhuo et al.

Uwagi

Dataset ma highest number of features (32) spośród wszystkich fraud detection datasets w GADBench
High information density w features sprawia że Dynamic Binning Embedding ma największy impact (removing DyBEM: 87.51% → 47.62%)
Relation concept: Reviewer Interaction (hand-crafted review features and statistics)
YelpChi benefituje najbardziej z increasing number of bins (monotonic improvement 4→40 bins)

Tagi

dataset fraud-detection review-spam social-networks graph-data opinion-spam yelp benchmark

Research

Przeglądaj

YelpChi

YelpChi

Informacje podstawowe

Źródło

Charakterystyka

Opis

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Tagi

Graf

Spis treści

Odnośniki zwrotne