YelpChi

Informacje podstawowe

  • Nazwa: YelpChi
  • Alias: Yelp Chicago Review Dataset
  • Dziedzina: Fraud Detection, Social Networks, Opinion Spam Detection
  • Typ: Graph data (reviewer-review-business network)

Źródło

  • URL: Dostępny na żądanie od autorów
  • Paper: Collective Opinion Spam Detection: Bridging Review Networks and Metadata (Rayana & Akoglu, 2015)
  • Organizacja: Carnegie Mellon University
  • Rok: 2015

Charakterystyka

  • Rozmiar: 45,954 nodes, 3,846,979 edges
  • Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
  • Klasy/Kategorie: Binary (normal reviews vs abnormal reviews)
  • Format: Graph structure with node features
  • Licencja: Request-based access
  • Feature dimension: 32 hand-crafted review features and statistics

Opis

YelpChi to dataset grafowy przeznaczony do identyfikacji abnormal reviews które unfairly promote lub demote produkty/biznesy na platformie Yelp.com. Dataset reprezentuje recenzje jako graf z węzłami (reviewers, reviews, businesses) i krawędziami (reviewer-review, review-business interactions).

Każdy węzeł ma 32 hand-crafted features opisujące statystyki recenzji, zachowania użytkowników i cechy biznesów. Dataset zawiera etykiety wskazujące czy review jest normalny czy abnormalny (spam, fake review).

Zastosowania

  • Wykrywanie opinion spam w sieciach recenzji
  • Graph fraud detection research
  • Collective behavior analysis w review networks
  • Benchmarking GNN-based anomaly detection methods

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
GAAPRec@K88.54%2025Duan et al. AAAI-25
DGA-GNNRec@K84.23%2024Duan et al.
XGBGraphRec@K83.15%2024Tang et al. GADBench
RFGraphRec@K75.31%2024Tang et al. GADBench
XGBoostRec@K75.08%2016Chen & Guestrin
RFRec@K70.23%2001Breiman
PMPRec@K61.69%2024Zhuo et al.

Uwagi

  • Dataset ma highest number of features (32) spośród wszystkich fraud detection datasets w GADBench
  • High information density w features sprawia że Dynamic Binning Embedding ma największy impact (removing DyBEM: 87.51% → 47.62%)
  • Relation concept: Reviewer Interaction (hand-crafted review features and statistics)
  • YelpChi benefituje najbardziej z increasing number of bins (monotonic improvement 4→40 bins)

Tagi

dataset fraud-detection review-spam social-networks graph-data opinion-spam yelp benchmark