Amazon Reviews (Musical Instruments)
Informacje podstawowe
- Nazwa: Amazon Musical Instruments Review Dataset
- Alias: Amazon, Amazon Reviews
- Dziedzina: Fraud Detection, E-commerce, Review Spam Detection
- Typ: Graph data (user-review network)
Źródło
- URL: Dostępny publicznie (część Amazon Review Data)
- Paper: From amateurs to connoisseurs: modeling the evolution of user expertise through online reviews (McAuley & Leskovec, 2013)
- Organizacja: Stanford University
- Rok: 2013
Charakterystyka
- Rozmiar: 11,944 nodes, 4,398,392 edges
- Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
- Klasy/Kategorie: Binary (legitimate users vs fake review writers)
- Format: Graph structure with node features
- Licencja: Publicly available
- Feature dimension: 25 hand-crafted user features and statistics
Opis
Amazon Musical Instruments Review Dataset zawiera użytkowników piszących fake reviews w kategorii instrumentów muzycznych na Amazon.com. Dataset reprezentuje relacje między użytkownikami i recenzjami jako graf, gdzie węzły to użytkownicy a krawędzie reprezentują correlations w review patterns.
Każdy węzeł ma 25 hand-crafted features opisujące user behavior statistics, review patterns i metadata. Dataset jest używany do wykrywania fraudulent reviewers którzy manipulują product ratings.
Zastosowania
- Fake review detection w e-commerce
- User behavior analysis
- Graph-based fraud detection
- Review manipulation detection
- Benchmarking fraud detection algorithms
Używany w publikacjach
- Global Attribute-Association Pattern Aggregation for Graph Fraud Detection - GAAP osiągnęło 87.50% Rec@K (2nd best, behind PNA’s 90.78%). Możliwe że noise w graph structure information Amazon dataset powodował instability during optimization według autorów.
Benchmarki
| Model | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| PNA | Rec@K | 90.78% | 2020 | Corso et al. |
| GAAP | Rec@K | 87.50% | 2025 | Duan et al. AAAI-25 |
| NA | Rec@K | 87.50% | 2016 | Yang et al. |
| XGBoost | Rec@K | 86.41% | 2016 | Chen & Guestrin |
| RF | Rec@K | 86.41% | 2001 | Breiman |
| DGA-GNN | Rec@K | 85.87% | 2024 | Duan et al. |
| XGBGraph | Rec@K | 85.87% | 2024 | Tang et al. |
Uwagi
- Jedyny dataset na którym GAAP nie osiągnęło 1st place (2nd best)
- Możliwa przyczyna: noise in graph structure information (według autorów publikacji)
- Graph structure może powodować instability during optimization
- Relation concept: Review Correlation (hand-crafted user features and statistics)
- Relatywnie mały dataset (11,944 nodes) ale bardzo gęsty (4.4M edges)
Tagi
dataset fraud-detection fake-reviews e-commerce amazon graph-data user-behavior benchmark