YelpChi
Informacje podstawowe
- Nazwa: YelpChi
- Alias: Yelp Chicago Review Dataset
- Dziedzina: Fraud Detection, Social Networks, Opinion Spam Detection
- Typ: Graph data (reviewer-review-business network)
Źródło
- URL: Dostępny na żądanie od autorów
- Paper: Collective Opinion Spam Detection: Bridging Review Networks and Metadata (Rayana & Akoglu, 2015)
- Organizacja: Carnegie Mellon University
- Rok: 2015
Charakterystyka
- Rozmiar: 45,954 nodes, 3,846,979 edges
- Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
- Klasy/Kategorie: Binary (normal reviews vs abnormal reviews)
- Format: Graph structure with node features
- Licencja: Request-based access
- Feature dimension: 32 hand-crafted review features and statistics
Opis
YelpChi to dataset grafowy przeznaczony do identyfikacji abnormal reviews które unfairly promote lub demote produkty/biznesy na platformie Yelp.com. Dataset reprezentuje recenzje jako graf z węzłami (reviewers, reviews, businesses) i krawędziami (reviewer-review, review-business interactions).
Każdy węzeł ma 32 hand-crafted features opisujące statystyki recenzji, zachowania użytkowników i cechy biznesów. Dataset zawiera etykiety wskazujące czy review jest normalny czy abnormalny (spam, fake review).
Zastosowania
- Wykrywanie opinion spam w sieciach recenzji
- Graph fraud detection research
- Collective behavior analysis w review networks
- Benchmarking GNN-based anomaly detection methods
Używany w publikacjach
- Global Attribute-Association Pattern Aggregation for Graph Fraud Detection - GAAP osiągnęło 88.54% Rec@K (best performance, +4.31pp improvement over DGA-GNN). Największa poprawa ze wszystkich 7 datasetów. Dataset ma wysoką information density w 32 features, co szczególnie benefituje z Dynamic Binning Embedding module.
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| GAAP | Rec@K | 88.54% | 2025 | Duan et al. AAAI-25 |
| DGA-GNN | Rec@K | 84.23% | 2024 | Duan et al. |
| XGBGraph | Rec@K | 83.15% | 2024 | Tang et al. GADBench |
| RFGraph | Rec@K | 75.31% | 2024 | Tang et al. GADBench |
| XGBoost | Rec@K | 75.08% | 2016 | Chen & Guestrin |
| RF | Rec@K | 70.23% | 2001 | Breiman |
| PMP | Rec@K | 61.69% | 2024 | Zhuo et al. |
Uwagi
- Dataset ma highest number of features (32) spośród wszystkich fraud detection datasets w GADBench
- High information density w features sprawia że Dynamic Binning Embedding ma największy impact (removing DyBEM: 87.51% → 47.62%)
- Relation concept: Reviewer Interaction (hand-crafted review features and statistics)
- YelpChi benefituje najbardziej z increasing number of bins (monotonic improvement 4→40 bins)
Tagi
dataset fraud-detection review-spam social-networks graph-data opinion-spam yelp benchmark